TWI795027B - 使用多個裝置上之多個分類器之分佈式感測器資料處理 - Google Patents

使用多個裝置上之多個分類器之分佈式感測器資料處理 Download PDF

Info

Publication number
TWI795027B
TWI795027B TW110137892A TW110137892A TWI795027B TW I795027 B TWI795027 B TW I795027B TW 110137892 A TW110137892 A TW 110137892A TW 110137892 A TW110137892 A TW 110137892A TW I795027 B TWI795027 B TW I795027B
Authority
TW
Taiwan
Prior art keywords
image
computing device
image data
data
model
Prior art date
Application number
TW110137892A
Other languages
English (en)
Other versions
TW202215270A (zh
Inventor
艾力克斯 奧爾瓦爾
凱文 巴爾克
德米特里 沃丁采夫
Original Assignee
美商谷歌有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商谷歌有限責任公司 filed Critical 美商谷歌有限責任公司
Publication of TW202215270A publication Critical patent/TW202215270A/zh
Application granted granted Critical
Publication of TWI795027B publication Critical patent/TWI795027B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/45Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/65Control of camera operation in relation to power supply
    • H04N23/651Control of camera operation in relation to power supply for reducing power consumption by affecting camera operations, e.g. sleep mode, hibernation mode or power off of selective parts of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

根據一態樣,一種使用一穿戴式裝置進行分佈式聲音/影像辨識之方法包含:經由至少一個感測器裝置接收感測器資料;及藉由該穿戴式裝置之一分類器偵測該感測器資料是否包含一所關注物件。該分類器經組態以執行一第一機器學習(ML)模型。該方法包含回應於在該感測器資料內偵測到該所關注物件而經由一無線連接件將該感測器資料傳輸至一運算裝置,其中該感測器資料經組態以由該運算裝置或一伺服器電腦上之一第二ML模型使用以進行進一步聲音/影像分類。

Description

使用多個裝置上之多個分類器之分佈式感測器資料處理
本發明係關於一種使用多個裝置上之多個分類器之分佈式感測器資料處理。
運算裝置(例如,穿戴式裝置、智慧型眼鏡、智慧型揚聲器、運動攝影機等)通常係相對緊湊型裝置,且在一些實例中,可在延長的時間段內處於一人之身體上或身體周圍。然而,用於處理感測器資料(例如,影像資料、音訊資料)之電腦處理要求可相對較高,尤其針對包含顯示及感知能力之裝置。例如,一裝置可執行需要許多電路組件之能量密集型操作(例如,音訊及/或影像處理、電腦視覺等),此可引起若干挑戰。例如,裝置可產生相對大量之熱量,從而使裝置在延長的時間段內接近皮膚時令人不舒服。另外,電路組件(包含電池)之量增加裝置之重量,從而增加延長的時間段內穿戴裝置之不適感。此外,能量密集型操作(結合電池容量之限制)可引起電池壽命相對較短。因而,一些習知裝置在一天中僅可使用短持續時間。
本發明係關於經由一無線連接件連接至一運算裝置(例如,智慧型電話、膝上型電腦、平板電腦等)之一低功率裝置(例如,智慧型眼鏡、穿戴式手錶、可攜式運動攝影機、安全攝影機、智慧型揚聲器等),其中能量密集型操作被卸載至該運算裝置(或連接至運算裝置之一伺服器電腦),此可引起對裝置之效能(例如,功率、頻寬、延時、運算能力、機器學習精度等)及使用者之體驗的改良。在一些實例中,無線連接件係一短距離無線連接件,諸如一藍芽連接件或近場通信(NFC)連接件。在一些實例中,低功率裝置包含一頭戴式顯示裝置(諸如智慧型眼鏡)。然而,本文中所論述之技術可應用於其他類型之低功率裝置,諸如可攜式運動攝影機、安全攝影機、智慧型門鈴、智慧型手錶等。
根據一態樣,一種使用一穿戴式裝置進行分佈式聲音辨識之方法包含:經由該穿戴式裝置之一麥克風接收音訊資料;藉由該穿戴式裝置之一聲音分類器偵測該音訊資料是否包含一所關注聲音,其中該聲音分類器執行一第一機器學習(ML)模型;及回應於在該音訊資料內偵測到該所關注聲音而經由一無線連接件將該音訊資料傳輸至一運算裝置,其中該音訊資料經組態以由一第二ML模型使用以進行進一步聲音分類。
根據一態樣,一種儲存可執行指令之非暫時性電腦可讀媒體,該等可執行指令在藉由至少一個處理器執行時引起該至少一個處理器:經由一穿戴式裝置之一麥克風接收音訊資料;藉由該穿戴式裝置之一聲音分類器偵測該音訊資料是否包含一所關注聲音,其中該聲音分類器經組態以執行一第一機器學習(ML)模型;及回應於在該音訊資料內偵測到該所關注聲音而經由一無線連接件將該音訊資料傳輸至一運算裝置,其中該音訊資料經組態以由該運算裝置上之一第二ML模型使用以進行進一步聲音分類。
根據一態樣,一種用於分佈式聲音辨識之穿戴式裝置包含:一麥克風,其經組態以擷取音訊資料;一聲音分類器,其經組態以偵測該音訊資料是否包含一所關注聲音,該聲音分類器包含一第一機器學習(ML)模型;及一射頻(RF)收發器,其經組態以回應於在該音訊資料內偵測到該所關注聲音而經由一無線連接件將該音訊資料傳輸至一運算裝置,其中該音訊資料經組態以由一第二ML模型使用以將該所關注聲音轉譯為文字資料。
根據一態樣,一種用於聲音辨識之運算裝置包含:至少一個處理器;及儲存可執行指令之一非暫時性電腦可讀媒體,該等可執行指令在藉由該至少一個處理器執行時引起該至少一個處理器:經由一無線連接件自一穿戴式裝置接收音訊資料,該音訊資料具有藉由執行一第一機器學習(ML)模型之一聲音分類器偵測之一所關注聲音;判定是否使用該運算裝置上之一聲音辨識引擎將該所關注聲音轉譯為文字資料;回應於使用該運算裝置上之該聲音辨識引擎之該判定,藉由該聲音辨識引擎將該所關注聲音轉譯為該文字資料,該聲音辨識引擎經組態以執行一第二ML模型;及經由該無線連接件將該文字資料傳輸至該穿戴式裝置。
根據一態樣,一種使用一穿戴式裝置進行分佈式影像辨識之方法包含:經由該穿戴式裝置之至少一個成像感測器接收影像資料;藉由該穿戴式裝置之一影像分類器偵測該影像資料內是否包含一所關注物件,該影像分類器執行一第一機器學習(ML)模型;及經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置上之一第二ML模型使用以進行進一步影像分類。
根據一態樣,一種儲存可執行指令之非暫時性電腦可讀媒體,該等可執行指令在藉由至少一個處理器執行時引起該至少一個處理器:自一穿戴式裝置上之一個成像感測器接收影像資料;藉由該穿戴式裝置之一影像分類器偵測該影像資料內是否包含一所關注物件,該影像分類器經組態以執行一第一機器學習(ML)模型;及經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置上之一第二ML模型使用以運算物件位置資料,該物件位置資料識別該影像資料中之該所關注物件之一位置。
根據一態樣,一種用於分佈式影像辨識之穿戴式裝置包含:至少一個成像感測器,其經組態以擷取影像資料;一影像分類器,其經組態以偵測該影像資料內是否包含一所關注物件,該影像分類器經組態以執行第一機器學習(ML)模型;及一射頻(RF)收發器,其經組態以經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置上之一第二ML模型使用以運算物件位置資料,該物件位置資料識別該影像資料中之該所關注物件之一位置。
根據一態樣,一種用於分佈式影像辨識之運算裝置包含:至少一個處理器;及儲存可執行指令之一非暫時性電腦可讀媒體,該等可執行指令在藉由該至少一個處理器執行時引起該至少一個處理器:經由一無線連接件自一穿戴式裝置接收影像資料,該影像資料具有藉由執行一第一機器學習(ML)模型之一影像分類器偵測之一所關注物件;使用一第二ML模型基於該影像資料運算物件位置資料,該物件位置資料識別該所關注物件在該影像資料中之一位置;及經由該無線連接件將該物件位置資料傳輸至該穿戴式裝置。
對於由穿戴式裝置上之一或多個感測器擷取之感測器資料,穿戴式裝置執行音訊及/或影像處理之一部分(例如,(若干)較低能量密集型操作)且運算裝置(及/或伺服器電腦及/或其他多個裝置)執行音訊及/或影像處理之(若干)其他部分(例如,(若干)較高能量密集型操作)。例如,穿戴式裝置可使用一相對較小機器學習(ML)模型智能偵測感測器資料之存在(例如,音訊資料是否包含一所關注聲音,諸如話音、音樂、一警報、用於一語音命令之一熱字等;或影像資料是否包含一所關注物件,諸如物件、文字、條碼、面部特徵等),且若是,則可經由無線連接件將感測器資料串流傳輸至運算裝置,以使用一相對較大ML模型執行更複雜的音訊及/或影像處理。該更複雜的音訊及/或影像處理之結果可經由無線連接件提供回至穿戴式裝置,此可引起穿戴式裝置執行一動作(包含額外影像/音訊處理)及/或可引起穿戴式裝置在穿戴式裝置之顯示器上呈現結果。
在一些實例中,此混合架構可在諸如一頭戴式顯示裝置(例如,智慧型眼鏡)之一穿戴式裝置中實現具有較少電路組件之一緊湊型外觀尺寸。例如,由於系統將更多能量密集型操作卸載至(若干)經連接之運算裝置(及/或伺服器電腦),因此穿戴式裝置可包含不太強大/複雜的電路。在一些實例中,穿戴式裝置之架構可在眼鏡框架內實現一相對較緊湊的印刷電路板,其中該印刷電路板包含功率相對較低同時仍能夠執行基於影像處理及/或電腦視覺之穿戴式應用程式(諸如物件分類、光學字元辨識(OCR)及/或條碼解碼)之電路系統。因此,可增加電池壽命,使得使用者可在延長的時間段內使用穿戴式裝置。
在一些實例中,聲音辨識操作係分佈於穿戴式裝置與運算裝置(及可能一伺服器電腦或其他運算裝置)之間。例如,穿戴式裝置包含一聲音分類器(例如,一小ML模型),該聲音分類器經組態以偵測由穿戴式裝置上之一麥克風擷取之音訊資料內是否包含一所關注聲音(例如,話音、音樂、警報等)。若否,則聲音分類器繼續監測音訊資料以判定是否偵測到所關注聲音。若是,則穿戴式裝置可經由無線連接件將音訊資料(例如,原始聲音、經壓縮聲音、聲音片段、經提取特徵及/或音訊參數等)串流傳輸至運算裝置。聲音分類器可透過其相對較小ML模型來節省電力及延時。運算裝置包含執行一較大ML模型以將音訊資料轉譯(或轉換)為文字資料(或其他形式之資料)之一更強大的聲音辨識引擎(例如,一更強大的分類器),其中運算裝置經由無線連接件將文字資料傳輸回至穿戴式裝置以在穿戴式裝置之顯示器上顯示及/或以聽覺方式讀回給使用者。在一些實例中,運算裝置經由一網路(例如,網際網路)連接至一伺服器電腦,且運算裝置將音訊資料傳輸至該伺服器電腦,其中伺服器電腦執行一較大ML模型以將音訊資料轉譯為文字資料(例如,在轉譯成一不同語言之情況下)。接著,將文字資料路由回至運算裝置且接著至穿戴式裝置以供顯示。
在一些實例中,影像辨識操作係分佈於穿戴式裝置與運算裝置之間。在一些實例中,影像辨識操作包含面部偵測及追蹤。然而,影像辨識操作可包含偵測(及追蹤)影像資料中之其他所關注區域(諸如物件、條碼及/或文字)之操作。穿戴式裝置包含一影像分類器(例如,一小ML模型),該影像分類器經組態以偵測由穿戴式裝置上之一或多個成像感測器擷取之影像資料內是否包含一所關注物件(例如,面部特徵、文字、OCR碼等)。若是,則穿戴式裝置可經由無線連接件將一影像圖框(包含所關注物件)傳輸至運算裝置。運算裝置包含執行一較大ML模型以計算識別經偵測之所關注物件之一位置之物件位置資料(例如,定界框資料集)之一更強大的物件偵測器(例如,一更強大的分類器),其中運算裝置將物件位置資料傳輸回至穿戴式裝置。穿戴式裝置使用一或多個低複雜性追蹤機制(例如,基於慣性量測單元(IMU)之翹曲、斑點偵測、光流等)以傳播用於在穿戴式裝置上擷取之後續影像圖框之物件位置資料。穿戴式裝置可壓縮經裁剪區域並將其等發送至運算裝置,其中運算裝置上之物件偵測器可對經裁剪區域執行物件偵測且將經更新之物件位置資料發送回至穿戴式裝置。
在一些實例中,具有多解析度之感知操作係分佈於穿戴式裝置與運算裝置之間。感知操作可包含永遠開啟感測及感測一語音輸入請求(例如,熱字偵測)。例如,穿戴式裝置可包含一低功率/低解析度(LPLR)攝影機及一高功率/高解析度(HPHR)攝影機。在一些實例中,穿戴式裝置可包含執行一小ML模型以自由LPLR攝影機擷取之影像資料偵測所關注物件(例如,面部、文字、條碼、建築物等)之影像分類器。若偵測到一所關注物件,則可觸發HPHR攝影機以擷取具有一較高品質(例如,較高解析度、較少雜訊等)之一或多個影像圖框。一些應用可能需要較高品質影像。
接著,可經由無線連接件將來自HPHR攝影機之(若干)影像圖框傳輸至運算裝置,其中運算裝置執行一較大ML模型以對具有較高品質之(若干)影像圖框執行更複雜的影像辨識操作。在一些實例中,操作可類似於上文所描述之物件偵測實例,其中物件位置資料(例如,定界框資料集)經運算且發送至穿戴式裝置,且穿戴式裝置使用一或多個追蹤機制以將物件位置資料傳播至後續圖框,且接著穿戴式裝置裁剪及壓縮影像區域以發送回至運算裝置以供進一步處理。在一些實例中,一產品之一影像串流可用於擷取標記文字或條碼且查找相關聯產品資訊(例如,價格、購物建議、可比產品等)。此資訊可展示於存在於穿戴式裝置上之一顯示表面上或以聽覺方式讀回給使用者。
就感測一語音輸入請求而言,穿戴式裝置可包含執行一小ML模型(例如,一守門模型)以針對一熱字(例如,「ok G」或「ok D」)之一初始部分連續地(例如,週期性地)處理麥克風樣本之一語音命令偵測器。若該語音命令偵測器偵測到該初始部分,則語音命令偵測器可引起一緩衝器擷取後續音訊資料。又,穿戴式裝置可經由無線連接件將緩衝器之一部分(例如,來自緩衝器之頭部之音訊之1秒至2秒)傳輸至運算裝置,其中運算裝置包含具有用以執行完整熱字辨識之一較大ML模型之一熱字辨識引擎。若話語係一偽陽性,則運算裝置可將一解除命令傳輸至穿戴式裝置,該穿戴式裝置摒棄緩衝器之內容。若話語係一真陽性,則將音訊緩衝器之其餘部分傳輸至運算裝置以用於自動話音辨識及使用者綁定回應產生。
本文中所描述之系統及技術可降低穿戴式裝置之電力消耗,增加電池壽命,減少由穿戴式裝置產生之熱量及/或減少穿戴式裝置內之電路組件之量(此可引起重量減輕),此可引起穿戴式裝置在延長的時間段內使用。在一些實例中,就功率而言,本文中所描述之系統及技術可將穿戴式裝置之電池壽命延長至一延長的時間段(例如,五個至十五個小時,或超過十五個小時)。相比而言,一些習知智慧型眼鏡及其他影像/音訊處理產品可僅具有幾個小時之使用時間。
在一些實例中,就頻寬而言,本文中所描述之系統及技術可使用守門模型(例如,小分類器、二元分類器等)跨無線連接件分佈運算操作(例如,推理操作)以限制不必要的傳輸,此可減少延時且降低電力使用。在一些實例中,就延時而言,本文中所描述之系統及技術可實現在穿戴式裝置之感測器附近及亦跨運算裝置(及可能伺服器電腦)之組件使用推理,此可提供調諧效能之靈活性以滿足各種應用之要求。ML決策可隨著應用使用及功率(例如,剩餘電池壽命)或運算要求在使用下改變而動態地發生。在一些實例中,就運算能力而言,本文中所描述之系統及技術可提供運算資源之靈活使用以滿足應用要求。
圖1繪示用於跨包含一裝置102、一運算裝置152及/或一伺服器電腦160之多個裝置分佈對感測器資料128之影像及/或音訊處理之一系統100。在一些實例中,感測器資料128係即時感測器資料或近即時感測器資料(例如,自一或多個感測器138即時或近即時收集之資料)。在一些實例中,對感測器資料128之影像及/或音訊處理可分佈於裝置102及運算裝置152當中。在一些實例中,對感測器資料128之影像及/或音訊處理可分佈於裝置102、運算裝置152或伺服器電腦160 (或其等之任何組合)之兩者或更多者當中。在一些實例中,系統100包含多個裝置102及/或多個運算裝置152,其中各裝置執行一分類器,該分類器作出關於是否及將哪些資料中繼至下一分類器(其可在相同裝置或一不同裝置上)之一決策。
裝置102經組態以經由一無線連接件148連接至運算裝置152。在一些實例中,無線連接件148係一短距離通信鏈路,諸如一近場通信(NFC)連接件或藍芽連接件。裝置102及運算裝置152可經由無線連接件148交換資訊。在一些實例中,無線連接件148定義一應用層協定,該應用層協定係使用具有用於繪製圖形基元之訊息類型之協定緩衝器、組態感測器138及週邊設備以及改變裝置模式來實施。在一些實例中,應用層協定定義可將感測器資料128及遠端程序呼叫(RPC)傳回值傳輸回至運算裝置152之另一組訊息類型。
運算裝置152可經由一網路150耦合至伺服器電腦160。伺服器電腦160可為採用數個不同裝置之形式之運算裝置,例如,一標準伺服器、此等伺服器之一群組,或一機架伺服器系統。在一些實例中,伺服器電腦160係共用組件(諸如處理器及記憶體)之一單個系統。網路150可包含網際網路及/或其他類型之資料網路,諸如一局域網路(LAN)、一廣域網路(WAN)、一蜂巢式網路、衛星網路或其他類型之資料網路。網路150亦可包含經組態以在網路150內接收及/或傳輸資料之任何數目個運算裝置(例如,電腦、伺服器、路由器、網路切換器等)。在一些實例中,裝置102亦經組態以經由網路150連接至伺服器電腦160。
關於針對由裝置102上之一或多個感測器138即時或近即時擷取之感測器資料128之音訊及/或影像處理,音訊及/或影像處理之一部分(例如,(若干)較低能量密集型操作)係在裝置102處執行,且音訊及/或影像處理之(若干)其他部分(例如,(若干)較高能量密集型操作)係在運算裝置152 (及/或伺服器電腦160)處執行。在一些實例中,音訊及/或影像處理之另一部分係在另一裝置處執行。在一些實例中,音訊及/或影像處理之另一部分係在又另一裝置處執行等等。在一些實例中,感測器資料128包含音訊資料131。在一些實例中,感測器資料128包含影像資料129。在一些實例中,感測器資料128包含音訊資料131及影像資料129。
裝置102可智能地偵測由(若干)感測器138擷取之感測器資料128內之特定類型之資料之存在。在一些實例中,裝置102可偵測由一麥克風140擷取之音訊資料131是否包含一所關注聲音,諸如話音、音樂、警報或用於命令偵測之一熱字之至少一部分等。在一些實例中,裝置102可偵測影像資料129是否包含一所關注物件(例如,物件、文字、條碼、面部特徵等)。若裝置102偵測到感測器資料128內之相關資料,則裝置102可經由無線連接件148將感測器資料128串流傳輸至運算裝置152,以執行更複雜的音訊及/或影像處理。在一些實例中,裝置102可將影像資料129串流傳輸至運算裝置152。在一些實例中,裝置102可將音訊資料131串流傳輸至運算裝置152。在一些實例中,裝置102可將音訊資料131及影像資料129兩者串流傳輸至運算裝置152。
在一些實例中,在傳輸至運算裝置152之前,裝置102壓縮音訊資料131及/或影像資料129。在一些實例中,裝置102自感測器資料128提取特徵且將經提取特徵發送至運算裝置152。在一些實例中,裝置102自感測器資料128提取特徵且將經提取特徵發送至運算裝置152。例如,經提取特徵可包含聲音強度、經運算之到達角(例如,聲音來自什麼方向)及/或聲音之類型(例如,話音、音樂、警報等)。在一些實例中,經提取特徵可包含可針對一特定類型之聲音節省傳輸頻寬之壓縮編碼。可經由無線連接件148將在運算裝置152處執行之更複雜的音訊及/或影像處理之結果提供回至裝置102以引起裝置102執行一動作(包含進一步音訊及/或影像處理),引起裝置102在裝置102之一顯示器116上呈現結果,及/或引起裝置102以聽覺方式提供結果。
在一些實例中,裝置102係能夠穿戴於一人之皮膚上或接近皮膚穿戴之一顯示裝置。在一些實例中,裝置102係一穿戴式裝置。在一些實例中,裝置102係一頭戴式顯示器(HMD)裝置,諸如一光學頭戴式顯示器(OHMD)裝置、一透明抬頭顯示器(HUD)裝置、一擴增實境(AR)裝置或具有感測器、顯示器及運算能力之其他裝置(諸如護目鏡或耳機)。在一些實例中,裝置102係智慧型眼鏡。智慧型眼鏡係設計成一副眼鏡之形狀之一光學頭戴式顯示器。例如,智慧型眼鏡係在穿戴者透過眼鏡觀看之內容旁邊添加資訊(例如,投影一顯示器116)之眼鏡。在一些實例中,可透過智慧型光學器件達成將資訊(例如,數位影像)疊加至一視場上。智慧型眼鏡係可運行自含型行動應用程式(例如,應用程式112)之有效穿戴式電腦。在一些實例中,智慧型眼鏡可為免持式的且可經由自然語言語音命令與網際網路通信,而其他眼鏡使用觸控按鈕。在一些實例中,裝置102可包含任何類型之低功率裝置。在一些實例中,裝置102包含一安全攝影機。在一些實例中,裝置102包含一運動攝影機。在一些實例中,裝置102包含一智慧型手錶。在一些實例中,裝置102包含一智慧型門鈴。如上文所指示,系統100可包含多個裝置102 (例如,一智慧型手錶、智慧型眼鏡等),其中各裝置102經組態以執行一分類器,該分類器可執行影像/音訊處理,且接著將資料路由至分類器之網路中之下一分類器。
裝置102可包含可形成於一基板中之經組態以執行一或多個機器可執行指令或若干件軟體、韌體或其等之一組合之一或多個處理器104。在一些實例中,(若干)處理器104係作為一系統單晶片(SOC)之部分而包含。(若干)處理器104可為基於半導體的,即,該等處理器可包含可執行數位邏輯之半導體材料。(若干)處理器104包含一微控制器106。在一些實例中,微控制器106係SOC內之一子系統且可包含一程序、記憶體及輸入/輸出週邊設備。在一些實例中,微控制器106係執行一分類器之一專用硬體處理器。裝置102可包含一電力管理單元(PMU) 108。在一些實例中,PMU 108係與SOC整合或包含於SOC內。微控制器106經組態以執行一機器學習(ML)模型126以使用感測器資料128執行與音訊及/或影像處理有關之一推理操作124-1。如下文進一步論述,ML模型126之相對較小大小可節省電力及延時。在一些實例中,裝置102包含執行多個推理操作124-1之可彼此通信及/或與其他裝置(例如,(若干)運算裝置152及/或伺服器電腦160)通信之多個微控制器106及多個ML模型126。
裝置102包含一或多個記憶體裝置110。在一些實例中,記憶體裝置110包含快閃記憶體。在一些實例中,記憶體裝置110可包含以可由包含微控制器106之(若干)處理器104讀取及/或執行之一格式儲存資訊之一主記憶體。記憶體裝置110可儲存藉由微控制器106執行之ML模型126之權重109 (例如,推理權重或模型權重)。在一些實例中,記憶體裝置110可儲存其他資產(諸如字體及影像)。
在一些實例中,裝置102包含可儲存於記憶體裝置110中且在藉由(若干)處理器104執行時執行特定操作之一或多個應用程式112。應用程式112可取決於使用案例而廣泛地改變,但可包含用以搜尋網頁內容之瀏覽器應用程式、聲音辨識應用程式(諸如話音轉文字應用程式)、影像辨識應用程式(包含物件及/或面部偵測(及追蹤)應用程式、條碼解碼應用程式、文字OCR應用程式等),及/或可使裝置102能夠執行特定功能(例如,擷取一影像、錄製一視訊、獲取方向、發送一訊息等)之其他應用程式。在一些實例中,應用程式112包含一電子郵件應用程式、一行事曆應用程式、一儲存應用程式、一話音呼叫應用程式及/或一訊息傳遞應用程式。
裝置102包含一顯示器116 (其係顯示資訊之一使用者介面)。在一些實例中,將顯示器116投影至使用者之視場上。在一些實例中,顯示器116係一內建式鏡頭顯示器。顯示器116可包含一液晶顯示器(LCD)、一發光二極體(LED)顯示器、一有機發光顯示器(OLED)、一電泳顯示器(EPD)或採用一LED光源之一微投影顯示器。在一些實例中,顯示器116可提供一透明或半透明顯示器,使得穿戴眼鏡之使用者可看到由顯示器116提供之影像以及定位於經投影影像後面之智慧型眼鏡之視場中之資訊。在一些實例中,裝置102包含容許使用者控制裝置102之一觸控墊117 (例如,其可容許透過顯示於顯示器116上之一介面滑移)。裝置102包含經組態以對電路組件提供電力之一電池120、實現經由無線連接件148與運算裝置152通信及/或經由網路150與伺服器電腦160通信之一或多個射頻(RF)收發器114、經組態以控制電池120之充電之一電池充電器122,及控制藉由顯示器116顯示之資訊之一或多個顯示調節器118。
裝置102包含複數個感測器138,諸如經組態以擷取音訊資料131之一麥克風140、經組態以擷取影像資料之一或多個成像感測器142、經組態以獲得照明條件資訊之一照明條件感測器144,及/或經組態以獲得運動資訊之一運動感測器146。麥克風140係將聲音轉換成由音訊資料131表示之一電信號之一傳感器裝置。光條件感測器144可偵測光曝光之量。在一些實例中,照明條件感測器144包含偵測存在之環境光之量之一環境光感測器,該環境光感測器可用於確保以一所要信雜比(SNR)擷取影像資料129。然而,照明條件感測器144可包含其他類型之光度(或色度計)感測器。運動感測器146可獲得可包含模糊估計資訊之運動資訊。運動感測器146可用於監測裝置移動(諸如傾斜、搖晃、旋轉及/或擺動)及/或用於判定模糊估計。
成像感測器142係偵測及傳遞用於製成一影像之資訊(其係由影像資料129表示)之感測器(例如,攝影機)。成像感測器142可拍攝照片及錄製視訊。在一些實例中,裝置102包含一單個成像感測器142。在一些實例中,裝置102包含多個成像感測器142。在一些實例中,成像感測器142包含一成像感測器142a及一成像感測器142b。成像感測器142a可被視為一低功率、低解析度(LPLR)影像感測器。成像感測器142b可被視為一高功率、高解析度(HPHR)影像感測器。由成像感測器142b擷取之一影像具有高於由成像感測器142a擷取之一影像之一品質(例如,更高解析度、更低雜訊)。在一些實例中,裝置102包含多於兩個成像感測器142。
在一些實例中,成像感測器142a經組態以在裝置102經啟動時獲得影像資料129 (例如,在裝置102經啟動時連續或週期性地擷取影像資料129)。在一些實例中,成像感測器142a經組態以作為一永遠開啟感測器操作。在一些實例中,成像感測器142b係回應於如下文進一步論述之一所關注物件之偵測而啟動(例如,在一短持續時間內)。
運算裝置152可為能夠無線地連接至裝置102之任何類型之運算裝置。在一些實例中,運算裝置152係一行動運算裝置。在一些實例中,運算裝置152係一智慧型電話、一平板電腦或一膝上型電腦。在一些實例中,運算裝置152係一穿戴式裝置。運算裝置152可包含形成於一基板中之經組態以執行一或多個機器可執行指令或若干件軟體、韌體或其等之一組合之一或多個處理器154。處理器154可為基於半導體的,即,該等處理器可包含可執行數位邏輯之半導體材料。
運算裝置152可包含一或多個記憶體裝置156。記憶體裝置156可包含以可由處理器154讀取及/或執行之一格式儲存資訊之一主記憶體。作業系統155係管理電腦硬體、軟體資源及為運算程式提供常見服務之一系統軟體。儘管圖1中未展示,但運算裝置152可包含可顯示用於由運算裝置152執行之一應用程式158之一使用者介面之一顯示器(例如,一觸控螢幕顯示器、一LED顯示器等)。應用程式158可包含可藉由作業系統155執行之任何類型之電腦程式。應用程式158可包含行動應用程式,例如,針對一行動平台或行動裝置開發之軟體程式。
在一些實例中,對藉由(若干)感測器138獲得之感測器資料128執行之音訊及/或影像處理被稱為推理操作(或ML推理操作)。一推理操作(例如,推理操作124-1或推理操作124-2)可係指涉及進行(或導致)一或多個預測之一ML模型之一音訊及/或影像處理操作、步驟或子步驟。特定類型之音訊及/或影像處理使用ML模型進行預測。例如,機器學習可使用自現有資料學習資料以便作出關於新資料之一決策(此係被稱為推理之一程序)之統計演算法。換言之,推理係指採用已經訓練之一模型及使用該經訓練模型進行預測之程序。推理之一些實例可包含聲音辨識(例如,話音轉文字辨識)、影像辨識(例如,面部辨識及追蹤等)及/或感知(例如,永遠開啟感測、語音輸入請求感測等)。
在一些實例中,一ML模型包含一或多個神經網路。神經網路變換由輸入層接收之一輸入,透過一系列隱藏層變換該輸入,及經由輸出層產生一輸出。各層係由節點集合之一子集組成。隱藏層中之節點完全連接至先前層中之所有節點且將其等輸出提供至下一層中之所有節點。一單個層中之節點彼此獨立地運作(即,不共用連接件)。輸出中之節點將經變換輸入提供至請求程序。在一些實例中,神經網路係一卷積神經網路,其係不完全連接之一神經網路。因此,卷積神經網路具有小於完全連接之神經網路之複雜性。卷積神經網路亦可利用集區或最大集區來降低流動通過神經網路之資料之維度(及因此複雜性)且因此,此可降低所需之運算位準。此使得一卷積神經網路中之輸出之運算比在神經網路中更快。
關於一特定推理類型,裝置102可執行推理之一或多個部分以智能地偵測感測器資料128之存在(例如,音訊資料131是否包含一所關注聲音,諸如話音、一警報或一熱字之至少一部分;及/或影像資料129是否包含一所關注物件(例如,面部特徵、文字、物件、條碼等)),且若是,則經由無線連接件148將感測器資料128傳輸至運算裝置152,其中運算裝置152使用感測器資料128執行ML推理之一或多個其他部分(例如,音訊及/或影像處理之更複雜部分)。換言之,推理操作可分佈於裝置102及運算裝置152 (及可能伺服器電腦160)當中,使得能量密集型操作係在相對於相對較小運算裝置(例如,裝置102)的更強大運算裝置(例如,運算裝置152或伺服器電腦160)處執行。
在一些實例中,系統100可包含其他裝置(例如,除裝置102、運算裝置152及伺服器電腦160之外),其中此等其他裝置之一或多者可執行一或多個分類器(其中各分類器執行與物件/聲音辨識有關之一ML模型)。例如,系統100可具有在裝置102上之一或多個分類器、一或多個穿戴式裝置(例如,一或多個裝置102)及/或在運算裝置152上之一或多個分類器。此外,可將資料發送至伺服器電腦160以用於伺服器側處理(此可具有額外分類步驟)。因而,在一些實例中,系統100可包含分析音訊/攝影機串流及作出關於是否及將什麼中繼至下一節點(或分類器)之決策之一分類器網路。
在一些實例中,裝置102之微控制器106可使用感測器資料128 (例如,來自麥克風140之音訊資料131及/或來自成像感測器142之一或多者之影像資料129)及儲存於裝置102上之ML模型126執行一推理操作124-1。在一些實例中,ML模型126可接收感測器資料128作為一輸入,且偵測感測器資料128是否具有其中訓練ML模型126以進行分類之一分類(例如,音訊資料131是否包含一所關注聲音或影像資料129是否包含一所關注物件)。在一些實例中,ML模型126係可針對特定準則(例如,頻率、振幅、特徵偵測等)評估傳入聲音之一聲音分類器。在一些實例中,經分析之準則判定是否應將音訊資料(例如,原始聲音、經壓縮聲音、聲音片段、聲音參數等)發送至進行進一步分類之(若干)其他裝置(包含運算裝置152、伺服器電腦160等)。
在一些實例中,ML模型126係偵測音訊資料131是否包含話音或不包含話音之一話音分類器(例如,一二元話音分類器)。在一些實例中,ML模型126係偵測影像資料129是否包含一所關注物件或不包含一所關注物件之一影像物件分類器(偵測器)。在一些實例中,ML模型126係偵測影像資料129是否包含面部特徵或不包含面部特徵之一物件分類器。在一些實例中,ML模型126係判定音訊資料131是否包含用於一語音命令之一熱字之至少一部分之一分類器。
若ML模型126之輸出指示已偵測到分類,則裝置102之RF收發器114可經由無線連接件148將感測器資料128傳輸至運算裝置152。在一些實例中,裝置102可壓縮感測器資料128,且接著將經壓縮之感測器資料128傳輸至運算裝置152。接著,運算裝置152經組態以使用感測器資料128 (自裝置102接收)及儲存於運算裝置152上之ML模型127執行一推理操作124-2。在一些實例中,就聲音辨識(例如,話音轉文字處理)而言,ML模型127係用於將音訊資料131轉換為文字,其中將結果傳輸回至裝置102。在一些實例中,就熱字命令辨識而言,ML模型127係用於對自裝置102接收之音訊資料131執行完整的熱字命令辨識。在一些實例中,就影像處理而言,ML模型127係用於運算物件位置資料(識別影像資料中之所關注物件之一位置),其中將結果傳輸回至裝置102以用於進一步影像處理,此將在說明書中稍後進一步描述。
然而,通常,推理操作124-2可係指不同於推理操作124-1之涉及一ML模型之一音訊及/或影像處理操作。在一些實例中,推理操作包含聲音辨識操作,其中推理操作124-1係指使用ML模型126執行之一第一聲音辨識操作,且推理操作124-2係指使用ML模型127執行之一第二聲音辨識。在一些實例中,推理操作包含影像辨識操作,其中推理操作124-1係指使用ML模型126執行之一第一影像辨識操作,且推理操作124-2係指使用ML模型127執行之一第二影像辨識操作。在一些實例中,推理操作包含感知感測操作(例如,永遠開啟感測、語音命令感測(例如,熱字辨識)等),其中推理操作124-1係指使用ML模型126執行之一第一感知感測操作,且推理操作124-2係指使用ML模型127執行之一第二感知感測操作。
ML模型126可具有小於(例如,實質上小於) ML模型127之一大小之一大小。在一些實例中,如相較於ML模型127,可需要ML模型126來執行較少運算操作以進行一預測。在一些實例中,一特定ML模型之大小可由該模型進行一預測所需之參數之數目來表示。一參數係在ML模型內部且其之值可自給定資料估計之一組態變量。ML模型126可包含參數111。例如,ML模型126可定義使ML模型126進行一預測所需之參數111之一數目。ML模型127包含參數113。例如,ML模型127可定義使ML模型127進行一預測所需之參數113之一數目。參數111之數目可小於(例如,實質上小於)參數113之數目。在一些實例中,參數113之數目係參數111之數目的至少十倍。在一些實例中,參數113之數目係參數111之數目的至少一百倍。在一些實例中,參數113之數目係參數111之數目的至少一千倍。在一些實例中,參數113之數目係參數111之數目的至少一百萬倍。在一些實例中,參數111之數目係在10k與100k之間的一範圍內。在一些實例中,參數111之數目小於10k。在一些實例中,參數113之數目係在1M與10M之間的一範圍內。在一些實例中,參數113之數目大於10M。
在一些實例中,聲音辨識操作(例如,話音、警報或通常任何類型之聲音)係分佈於裝置102與運算裝置152之間。在一些實例中,聲音辨識操作係分佈於裝置102與運算裝置152之間。例如,微控制器106經組態以藉由調用ML模型126偵測由裝置102上之麥克風140擷取之音訊資料131內是否包含一所關注聲音來執行一推理操作124-1。ML模型126可為將音訊資料131分類為含有所關注聲音或不含有所關注聲音之一分類器。例如,ML模型126自麥克風140接收音訊資料131且運算關於音訊資料131是否包含所關注聲音之一預測。若ML模型126在音訊資料131內未偵測到所關注聲音,則ML模型126繼續自麥克風140接收音訊資料131作為一輸入以運算關於在音訊資料131內是否偵測到所關注聲音之一預測。若ML模型126在音訊資料131內偵測到所關注聲音,則裝置102經由無線連接件148將音訊資料131 (例如,原始聲音、經壓縮聲音、聲音片段及/或音訊參數等)串流傳輸至運算裝置152。在一些實例中,裝置102壓縮音訊資料131,且接著經由無線連接件148將經壓縮之音訊資料131傳輸至運算裝置152。
運算裝置152經由無線連接件148自裝置102接收音訊資料131且藉由調用ML模型127來執行一推理操作124-2。ML模型127可透過其相對較小之ML模型節省電力及延時。運算裝置152包含執行一ML模型127 (例如,一較大ML模型)以轉換音訊資料131 (可能至文字資料)之一更強大的聲音辨識引擎(例如,另一類型之分類器),其中運算裝置152經由無線連接件148將文字資料傳輸回至裝置102以在裝置之顯示器上顯示。在一些實例中,運算裝置152經由一網路150 (例如,網際網路)連接至一伺服器電腦160,且運算裝置152將音訊資料131傳輸至伺服器電腦160,其中伺服器電腦160執行一較大ML模型以將音訊資料131轉換為文字資料(例如,在轉譯成一不同語言之情況下)。接著,將文字資料路由回至運算裝置152且接著至裝置102以供顯示。
在一些實例中,影像辨識操作係分佈於裝置102與運算裝置152之間。在一些實例中,影像辨識操作包含面部偵測及追蹤。然而,影像辨識操作可包含用以偵測(及追蹤)影像資料中之其他所關注區域(諸如物件、文字及條碼)之操作。微控制器106經組態以藉由調用ML模型126以偵測一所關注物件是否包含在由裝置102上之一或多個成像感測器142擷取之影像資料129內來執行一推理操作124-1。若是,則裝置102可經由無線連接件148將一影像圖框(其包含所關注物件)傳輸至運算裝置152。在一些實例中,裝置102壓縮影像圖框,且接著經由無線連接件148將經壓縮之影像圖框傳輸至運算裝置152。
運算裝置152經組態以藉由調用ML模型127以使用影像資料129執行一更複雜的影像處理操作(諸如計算識別所關注物件之一位置之物件位置資料(例如,一定界框資料集))來執行一推理操作124-2,其中運算裝置152將物件位置資料傳輸回至裝置102。裝置102使用一或多個低複雜性追蹤機制(例如,基於IMU之翹曲、斑點偵測、光流等)以傳播用於在裝置102上擷取之後續影像圖框之物件位置資料。裝置102可壓縮經裁剪區域並將其等發送至運算裝置152,其中運算裝置152可對經裁剪區域執行影像分類且將經更新之物件位置資料發送回至裝置102。
在一些實例中,具有多解析度之感知操作係分佈於裝置102與運算裝置152之間。感知操作可包含永遠開啟感測及感測一語音輸入請求(例如,熱字偵測)。在一些實例中,成像感測器142a (例如,LPLR攝影機)係在使用者穿戴裝置102時啟動以便擷取具有相對較低解析度之影像資料129以搜尋所關注區域。例如,微控制器106經組態以藉由調用ML模型126 (使用影像資料129作為ML模型126之一輸入)以偵測所關注物件(例如,面部、文字、條碼、建築物等)來執行一推理操作124-1。若偵測到一所關注物件,則成像感測器142b可經啟動以擷取具有一較高解析度之一或多個影像圖框。
接著,可經由無線連接件148將具有較高解析度之影像資料129傳輸至運算裝置152。在一些實例中,裝置102壓縮具有較高解析度之影像資料129且經由無線連接件148傳輸經壓縮之影像資料129。運算裝置152經組態以藉由調用ML模型127 (輸入有具有較高解析度之影像資料129)以執行影像辨識來執行一推理操作124-2。在一些實例中,操作可類似於上文所描述之面部偵測實例,其中藉由運算裝置152運算物件位置資料(例如,定界框資料集)且將其發送至裝置102,且裝置102使用一或多個追蹤機制以將物件位置資料傳播至後續圖框,且接著裝置102裁剪及壓縮影像區域以發送回至運算裝置152以進行進一步影像分類。在一些實例中,一產品之一影像串流可用於擷取標記文字或條碼且查找相關聯產品資訊(例如,價格、購物建議、可比產品等)。此資訊可展示於裝置102上之一顯示器116上或以聽覺方式讀回給使用者。
就感測一語音輸入請求而言,微控制器106經組態以藉由調用ML模型126以針對一熱字(例如,「ok G」或「ok D」)之一初始部分連續地(例如,週期性地)處理麥克風樣本(例如,音訊資料131)來執行一推理操作124-1。若ML模型126偵測到該初始部分,則微控制器106可引起一緩衝器擷取後續音訊資料131。又,裝置102可經由無線連接件148將緩衝器之一部分(例如,來自緩衝器之頭部之音訊之1秒至2秒)傳輸至運算裝置152。在一些實例中,緩衝器之該部分係在傳輸至運算裝置152之前壓縮。運算裝置152經組態以藉由調用ML模型127以使用音訊資料131執行完整熱字辨識來執行一推理操作124-2。若話語係一偽陽性,則運算裝置152可將一解除命令傳輸至裝置102,裝置102摒棄緩衝器之內容。若話語係一真陽性,則將音訊緩衝器之其餘部分壓縮並傳輸至運算裝置152以用於自動話音辨識及使用者綁定回應產生。
在一些實例中,為增加傳輸效率,裝置102可緩衝多個資料封包134且經由無線連接件148將資料封包134作為一單個傳輸事件132傳輸至運算裝置152。例如,各傳輸事件132可與引起電力自電池120耗散之一電力消耗相互關聯。在一些實例中,裝置102判定待傳輸至運算裝置152之資訊之類型。在一些實例中,若待傳輸至運算裝置152之資訊之類型與延時相依資訊(例如,音訊串流傳輸)有關,則裝置102可不緩衝音訊資料131而是無延遲地串流傳輸音訊資料131。在一些實例中,若待傳輸之資訊並非延時相依資訊,則裝置102可將資訊作為一或多個資料封包134儲存於一緩衝器130中且稍後將資訊傳輸至運算裝置152。緩衝器130可為(若干)記憶體裝置110之一部分。在一些實例中,其他非延時相依資訊可與緩衝器130中之現有資料組合,且包含於緩衝器130中之資訊可作為一單個傳輸事件132傳輸至運算裝置152。
例如,緩衝器130可包含一資料封包136a及一資料封包136b。資料封包136a可包含在一第一時間例項獲得之資訊,且資料封包136b可包含在一第二時間例項獲得之資訊,其中該第二時間例項係在該第一時間例項之後。然而,裝置102可將資料封包136a及資料封包136b儲存於緩衝器130中且將資料封包136a及資料封包136b作為一單個傳輸事件132傳輸,而非將資料封包136a及資料封包136b作為不同傳輸事件132傳輸。以此方式,可減少傳輸事件132之數目,此可增加將資訊傳達至運算裝置152之能量效率。
圖2繪示用於跨包含一裝置202、一運算裝置252及一伺服器電腦260之多個裝置分佈影像及/或音訊處理之一系統200。系統200可為圖1之系統100之一實例且可包含參考彼等圖所揭示之細節之任一者。裝置202經由一無線連接件248連接至運算裝置252。在一些實例中,裝置202係一頭戴式顯示裝置(諸如智慧型眼鏡)。然而,裝置202可為如本文中所論述之其他類型之低功率裝置。運算裝置252經由一網路250連接至伺服器電腦260。在圖2中,裝置202自裝置202上之一或多個感測器238獲得感測器資料228。感測器資料228可包含影像資料或音訊資料之至少一者。裝置202 (例如,圖1之微控制器106)可藉由調用一ML模型226以對感測器資料228執行影像及/或音訊處理以偵測感測器資料228是否包含其中訓練ML模型226之一資料類型來執行一推理操作224-1。在一些實例中,裝置202可包含多個分類器(例如,多個微控制器106),其中各分類器可作出一決策以將感測器資料228 (或該決策之結果)發送至可在裝置202或另一裝置(諸如運算裝置252)上之另一分類器。
若偵測到其中訓練ML模型226之資料類型,則裝置202可經由無線連接件248將感測器資料228傳輸至運算裝置252。接著,運算裝置252可經由網路250將感測器資料228傳輸至伺服器電腦260。在一些實例中,運算裝置252可包含處理由(若干)感測器238擷取之音訊/影像資料以作出關於是否調用運算裝置252、裝置202或伺服器電腦260上之另一分類器之(若干)決策之一或多個分類器。伺服器電腦260包含一或多個處理器262,一或多個處理器262可形成於一基板中,經組態以執行一或多個機器可執行指令或若干件軟體、韌體或其等之一組合。(若干)處理器262可為基於半導體的,即,該等處理器可包含可執行數位邏輯之半導體材料。伺服器電腦260包含一或多個記憶體裝置264。記憶體裝置264可包含以可由處理器262讀取及/或執行之一格式儲存資訊之一主記憶體。
伺服器電腦260經組態以使用感測器資料228及儲存於伺服器電腦260上之一ML模型229執行一推理操作224-2。推理操作224-1及推理操作224-2係與不同音訊及/或影像處理操作有關。在一些實例中,推理操作224-1及推理操作224-2係與不同音訊處理操作有關。在一些實例中,推理操作224-1及推理操作224-2係與不同影像辨識操作有關。在一些實例中,推理操作224-1及推理操作224-2係與不同感知操作有關。
ML模型226可具有小於(例如,實質上小於) ML模型229之一大小之一大小。ML模型226可定義使ML模型226進行一預測所需之參數211之一數目。ML模型229可定義使ML模型229進行一預測所需之參數215之一數目。參數211之數目小於(例如,實質上小於)參數215之數目。在一些實例中,參數215之數目係參數211之數目的至少一千倍。在一些實例中,參數215之數目係參數211之數目的至少一百萬倍。在一些實例中,參數211之數目係在10k與100k之間的一範圍內。在一些實例中,參數211之數目小於10k。在一些實例中,參數215之數目係在10M與100M之間的一範圍內。在一些實例中,參數215之數目大於100M。
圖3繪示用於跨包含一裝置302、一運算裝置352及一伺服器電腦360之多個裝置分佈影像及/或音訊處理之一系統300。系統300可為圖1之系統100及/或圖2之系統200之一實例且可包含參考彼等圖所揭示之細節之任一者。裝置302經由一無線連接件348連接至運算裝置352。在一些實例中,裝置302係一頭戴式顯示裝置(諸如智慧型眼鏡)。然而,裝置302可為如本文中所論述之其他類型之低功率裝置。運算裝置352經由一網路350連接至伺服器電腦360。在圖3中,裝置302自裝置302上之一或多個感測器338獲得感測器資料328。感測器資料328可包含影像資料或音訊資料之至少一者。裝置302 (例如,圖1之微控制器106)可藉由調用一ML模型326以對感測器資料328執行影像及/或音訊處理以偵測感測器資料328是否包含其中訓練ML模型326之一資料類型來執行一推理操作324-1。
若偵測到其中訓練ML模型326之資料類型,則裝置302可經由無線連接件348將感測器資料328傳輸至運算裝置352。運算裝置352經組態以使用感測器資料328及儲存於運算裝置352上之一ML模型327執行一推理操作324-2。接著,運算裝置352可經由網路350將推理操作324-2之結果及/或感測器資料328傳輸至伺服器電腦360。
伺服器電腦360經組態以使用推理操作324-2之結果及/或感測器資料328以及儲存於伺服器電腦360上之一ML模型329執行一推理操作324-3。推理操作324-1、推理操作324-2、推理操作324-3係與不同音訊及/或影像處理操作有關。在一些實例中,推理操作324-1、推理操作324-2、推理操作324-3係與不同音訊處理操作有關。在一些實例中,推理操作324-1、推理操作324-2、推理操作324-3係與不同影像辨識操作有關。在一些實例中,推理操作324-1、推理操作324-2、推理操作324-3係與不同感知操作有關。
ML模型326可具有小於(例如,實質上小於) ML模型327之一大小之一大小。ML模型327可具有小於(例如,實質上小於) ML模型329之一大小之一大小。ML模型326可定義使ML模型326進行一預測所需之參數311之一數目。ML模型327可定義使ML模型327進行一預測所需之參數313之一數目。ML模型329可定義使ML模型329進行一預測所需之參數315之一數目。參數311之數目小於(例如,實質上小於)參數313之數目。參數313之數目小於(例如,實質上小於)參數315之數目。在一些實例中,參數311之數目係在10k與100k之間的一範圍內。在一些實例中,參數311之數目小於10k。在一些實例中,參數313之數目係在100K與1M之間的一範圍內。在一些實例中,參數313之數目大於1M。在一些實例中,參數315之數目係在10M與100M之間的一範圍內。在一些實例中,參數315之數目大於100M。
圖4繪示根據一態樣之一頭戴式顯示裝置402之一實例。頭戴式顯示裝置402可為圖1之裝置102、圖2之裝置202及/或圖3之裝置302之一實例。頭戴式顯示裝置402包含智慧型眼鏡469。智慧型眼鏡469係在穿戴者透過眼鏡觀看之內容旁邊添加資訊(例如,投影一顯示器416)之眼鏡。在一些實例中,代替投影資訊,顯示器416係一鏡片內微型顯示器。智慧型眼鏡469 (例如,眼鏡(eyeglasses或spectacles))係助視器,其包含安裝於一框架471中之鏡片472 (例如,玻璃或硬塑膠鏡片),框架471通常利用一鼻樑473及擱置於耳朵上方之支腿474 (例如,太陽穴或太陽穴片)將鏡片472固持於人的眼睛前面。智慧型眼鏡469包含包括智慧型眼鏡469之電路系統之一電子組件470。在一些實例中,電子組件470包含圍封圖1之裝置102、圖2之裝置202及/或圖3之裝置302之組件之一外殼。在一些實例中,電子組件470係包含或整合至智慧型眼鏡469之支腿474之一者(或兩者)中。
圖5繪示根據一實例之一副智慧型眼鏡之一電子組件570之一實例。電子組件570可為圖4之電子組件470之一實例。智慧型眼鏡之電子組件570可包含顯示調節器518、一顯示器516、一快閃記憶體510、一RF收發器514、一通用串列匯流排(USB)介面521、一電力管理單元(PMU) 508、一系統單晶片(SOC) 504、一電池充電器522、一電池520、複數個使用者控制件581及一使用者發光二極體(LED) 585。顯示調節器518、顯示器516、RF收發器514、電池充電器522及電池520可為圖1之顯示調節器118、顯示器116、RF收發器114、電池充電器122及電池120之一實例。SOC 504可包含圖1之(若干)處理器104 (包含微控制器106)。快閃記憶體510可為圖1之記憶體裝置110之一實例。快閃記憶體510可儲存可藉由SOC 504執行之任何ML模型之權重。
SOC 504可將資料及控制資訊提供至投影在使用者之視場中之顯示器516。在一些實例中,PMU 508係包含於或整合於SOC 504內。顯示調節器518連接至PMU 508。顯示調節器518可包含一第一轉換器576 (例如,一VDDD DC轉DC轉換器)、一第二轉換器579 (例如,一VDDA DC轉DC轉換器)及一LED驅動器580。第一轉換器576經組態以回應於一啟用信號而啟動,且第二轉換器579經組態以回應於一啟用信號而啟動。LED驅動器580經組態以根據一脈衝寬度調變(PWM)控制信號而驅動。複數個使用者控制件581可包含一重設按鈕582、一電力按鈕583、一第一使用者按鈕584-1及一第二使用者按鈕584-2。
圖6繪示根據一態樣之用於智慧型眼鏡之一印刷電路板(PCB)基板668。PCB基板668可為圖4之電子組件470及/或圖5之電子組件570之一實例及/或包含於圖4之電子組件470及/或圖5之電子組件570內。PCB基板668包含複數個電路組件。在一些實例中,該等電路組件耦合於PCB基板668之一側上。在一些實例中,電路組件耦合於PCB基板668之兩側上。PCB基板668可包含一電池充電器622、一SOC 604、一顯示撓曲件669、顯示調節器618及一快閃記憶體610。PCB基板668可相對較緊湊。例如,PCB基板668可界定一長度(L)及一寬度(W)。在一些實例中,長度(L)係在40 mm至80 mm之一範圍內。在一些實例中,長度(L)係在50 mm至70 mm之一範圍內。在一些實例中,長度(L)係60 mm。在一些實例中,寬度(W)係在8 mm至25 mm之一範圍內。在一些實例中,寬度(W)係在10 mm至20 mm之一範圍內。在一些實例中,寬度(W)係14.5 mm。
圖7A及圖7B繪示用於在一裝置702與一運算裝置752之間分佈聲音辨識操作之一系統700。系統700可為圖1之系統100、圖2之系統200及/或圖3之系統300之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置702可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置702之組件可包含圖5之電子組件570及/或圖6之電子組件670。
如圖7A中所展示,聲音辨識操作係分佈於裝置702與運算裝置752之間。裝置702經由一無線連接件748 (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置752。在一些實例中,無線連接件748係一藍芽連接件。在一些實例中,裝置702包含使音訊資料731能夠由裝置702上之一麥克風740擷取及使文字資料707能夠顯示在裝置702之一顯示器716上之一聲音辨識應用程式。
裝置702包含執行一聲音分類器703以偵測由裝置702上之一麥克風740擷取之音訊資料731內是否包含一所關注聲音(例如,話音、警報等)之一微控制器706。聲音分類器703可包含一ML模型726或由ML模型726定義。ML模型726可定義使ML模型726進行一預測(例如,音訊資料731內是否包含所關注聲音)所需之參數711之一數目。ML模型726可相對較小,因為實際轉換係卸載至運算裝置752。例如,參數711之數目可在10k與100k之間的一範圍內。聲音分類器703可透過其相對較小之ML模型726來節省電力及延時。
參考圖7B,在操作721中,聲音分類器703可自裝置702上之麥克風740接收音訊資料731。在操作723中,聲音分類器703可判定音訊資料731中是否偵測到所關注聲音。若未偵測到所關注聲音(否),則聲音分類器703繼續監測經由麥克風740接收之音訊資料731,以判定是否偵測到所關注聲音。若偵測到所關注聲音(是),則在操作725中,裝置702經由無線連接件748將音訊資料731串流傳輸至運算裝置752。例如,裝置702上之一RF收發器714可經由無線連接件748傳輸音訊資料731。在一些實例中,裝置702壓縮音訊資料731,且接著將經壓縮之音訊資料731傳輸至運算裝置752。
參考圖7A,運算裝置752包含執行一ML模型727 (例如,一較大ML模型)以將音訊資料731之聲音轉換為文字資料707之一聲音辨識引擎709 (例如,另一分類器)。ML模型727可定義使ML模型727進行一預測所需之參數713之一數目。在一些實例中,參數713之數目係參數711之數目的至少十倍。在一些實例中,參數713之數目係參數711之數目的至少一百倍。在一些實例中,參數713之數目係參數711之數目的至少一千倍。在一些實例中,參數713之數目係參數711之數目的至少一百萬倍。在一些實例中,參數713之數目係在1M與10M之間的一範圍內。在一些實例中,參數713之數目大於10M。運算裝置752經由無線連接件748將文字資料707傳輸至裝置702。裝置702在裝置之顯示器716上顯示文字資料707。
圖8繪示用於在一裝置802與一伺服器電腦860之間分佈聲音辨識操作之一系統800。系統800可為圖1之系統100、圖2之系統200、圖3之系統300及/或圖7A及圖7B之系統700之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置802可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置802之組件可包含圖5之電子組件570及/或圖6之電子組件670。
如圖8中所展示,聲音辨識操作係分佈於裝置802與伺服器電腦860之間,其中可經由一運算裝置852將音訊資料831提供至伺服器電腦860。裝置802經由一無線連接件848 (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置852。在一些實例中,無線連接件848係一藍芽連接件。運算裝置852經由一網路850 (例如,網際網路,諸如Wi-Fi或行動連接件)連接至伺服器電腦860。在一些實例中,裝置802包含使音訊資料831能夠由裝置802上之一麥克風840擷取及使文字資料807能夠顯示在裝置802之一顯示器816上之一聲音辨識應用程式。
裝置802包含執行一聲音分類器803以偵測由裝置802上之一麥克風840擷取之音訊資料831內是否包含一所關注聲音之一微控制器806。聲音分類器803可包含一ML模型826或由ML模型826定義。ML模型826可定義使ML模型826進行一預測(例如,音訊資料831內是否包含所關注聲音)所需之參數811之一數目。ML模型826可相對較小,因為實際轉換係卸載至伺服器電腦860。例如,參數811之數目可在10k與100k之間的一範圍內。聲音分類器803可透過其相對較小之ML模型826來節省電力及延時。
若未偵測到所關注聲音,則聲音分類器803繼續監測經由麥克風840接收之音訊資料831,以判定是否偵測到所關注聲音。若偵測到所關注聲音,則裝置802經由無線連接件848將音訊資料831串流傳輸至運算裝置852。例如,裝置802上之一RF收發器814可經由無線連接件848傳輸音訊資料831。在一些實例中,裝置802壓縮音訊資料831,且接著將經壓縮之音訊資料831傳輸至運算裝置852。
在一些實例中,運算裝置852可經由網路850將音訊資料831傳輸至伺服器電腦860。在一些實例中,運算裝置852判定運算裝置852是否具有將聲音轉換為文字資料807之能力。若否,則運算裝置852可將音訊資料831傳輸至伺服器電腦860。若是,則運算裝置852可執行聲音轉換,如參考圖7A及圖7B之系統700所論述。
在一些實例中,運算裝置852判定聲音轉換是否包含轉譯成另一語言。例如,音訊資料831可包含用英語語言之話音,但聲音辨識應用程式之參數指示以另一語言(諸如德語)提供文字資料807。在一些實例中,若轉換包含轉譯成另一語言,則運算裝置852可將音訊資料831傳輸至伺服器電腦860。在一些實例中,在自裝置802接收音訊資料831時,運算裝置852可將音訊資料831自動傳輸至伺服器電腦860。在一些實例中,裝置802經由網路850 (例如,不使用運算裝置852)將音訊資料831直接傳輸至伺服器電腦860且裝置802經由網路850 (例如,不使用運算裝置852)自伺服器電腦860接收文字資料807。
伺服器電腦860包含執行一ML模型829 (例如,一較大ML模型)以將音訊資料831之聲音轉換為文字資料807之一聲音辨識引擎809。在一些實例中,將話音轉換為文字資料807包含轉譯成一不同語言。ML模型829可定義使ML模型829進行一預測(例如,將聲音轉換為文字資料807)所需之參數815之一數目。在一些實例中,參數815之數目係參數811之數目之至少一千倍。在一些實例中,參數815之數目係參數811之數目之至少一百萬倍。在一些實例中,參數815之數目係參數811之數目之至少一億倍。在一些實例中,參數815之數目係在1M與100M之間的一範圍內。在一些實例中,參數815之數目大於100M。伺服器電腦860經由網路850將文字資料807傳輸至運算裝置852。運算裝置852經由無線連接件848將文字資料807傳輸至裝置802。裝置802在裝置之顯示器816上顯示文字資料807。
圖9繪示使用一裝置902進行聲音辨識操作之一系統900。系統900可為圖1之系統100、圖2之系統200、圖3之系統300、圖7A及圖7B之系統700及/或圖8之系統800之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置902可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置902之組件可包含圖5之電子組件570及/或圖6之電子組件670。
裝置902經由一無線連接件948 (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置952。在一些實例中,無線連接件948係一藍芽連接件。運算裝置952可包含經組態以擷取音訊資料931之一麥克風921,及經組態以將音訊資料931之聲音轉換為文字資料907之一聲音辨識引擎909。聲音辨識引擎909可包含如參考先前圖所論述之一ML模型或由該ML模型定義。在將聲音轉換為文字資料907之後,運算裝置952可經由無線連接件948將文字資料907傳輸至裝置902,且裝置902經由裝置902上之一RF收發器914接收文字資料907。裝置902經組態以在裝置902之一顯示器916上顯示文字資料907。
圖10繪示使用一裝置1002執行聲音辨識操作之一系統1000。系統1000可為圖1之系統100、圖2之系統200、圖3之系統300、圖7A及圖7B之系統700、圖8之系統800及/或圖9之系統900之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置1002可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置1002之組件可包含圖5之電子組件570及/或圖6之電子組件670。
如圖10中所展示,聲音辨識操作係分佈於運算裝置1052與伺服器電腦1060之間,其中經由裝置1002顯示文字資料1007。裝置1002經由一無線連接件1048 (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置1052。在一些實例中,無線連接件1048係一藍芽連接件。運算裝置1052經由一網路1050 (例如,網際網路,諸如Wi-Fi或行動連接件)連接至伺服器電腦1060。
運算裝置1052包含經組態以擷取音訊資料1031之一麥克風1021。又,運算裝置1052包含偵測由運算裝置1052上之麥克風1021擷取之音訊資料1031內是否包含所關注聲音之一聲音分類器1003 (例如,一ML模型)。若未偵測到所關注聲音,則聲音分類器1003繼續監測經由麥克風1021接收之音訊資料1031,以判定是否偵測到所關注聲音。若偵測到所關注聲音,則運算裝置1052經由網路1050將音訊資料1031串流傳輸至伺服器電腦1060。在一些實例中,運算裝置1052判定運算裝置1052是否具有將聲音轉換為文字資料1007之能力。若否,則運算裝置1052可將音訊資料1031傳輸至伺服器電腦1060。若是,則運算裝置1052可執行聲音轉換,如參考圖9之系統900所論述。在一些實例中,運算裝置1052壓縮音訊資料1031,且將經壓縮之音訊資料1031發送至伺服器電腦1060。
在一些實例中,運算裝置1052判定聲音轉換是否包含轉譯成另一語言。例如,音訊資料1031可包含用英語語言之話音,但話音轉文字應用程式之參數指示以一不同語言提供文字資料1007。在一些實例中,若話音轉文字轉換包含轉譯成另一語言,則運算裝置1052可將音訊資料1031傳輸至伺服器電腦1060。在一些實例中,在偵測音訊資料1031內之話音時,運算裝置1052可將音訊資料1031自動傳輸至伺服器電腦1060。
伺服器電腦1060包含執行一ML模型以將音訊資料1031之聲音轉換為文字資料1007之一聲音辨識引擎1009。在一些實例中,將聲音轉換為文字資料1007包含轉譯成一不同語言。伺服器電腦1060經由網路1050將文字資料1007傳輸至運算裝置1052。運算裝置1052經由無線連接件1048將文字資料1007傳輸至裝置1002上之一RF收發器1014。裝置1002在裝置之顯示器1016上顯示文字資料1007。
圖11係描繪圖7A及圖7B之系統700之實例性操作之一流程圖1100。儘管圖11之流程圖1100係關於圖7A及圖7B之系統700所闡釋,但流程圖1100可應用於本文中所論述之實施例之任一者,包含圖1之系統100、圖2之系統200、圖3之系統300、圖4之頭戴式顯示裝置402、圖5之電子組件570、圖6之電子組件670、圖8之系統800、圖9之系統900及/或圖10之系統1000。儘管圖11之流程圖1100依循序順序繪示操作,但將瞭解,此僅為一實例,且可包含額外或替代操作。此外,圖11之操作及相關操作可依不同於所展示之順序之一順序或以一平行或重疊方式執行。
操作1102包含經由裝置702之一麥克風740接收音訊資料731。操作1104包含藉由一聲音分類器703偵測音訊資料731是否包含一所關注聲音(例如,話音),其中聲音分類器703執行一第一ML模型(例如,ML模型726)。
操作1106包含經由一無線連接件748將音訊資料731傳輸至一運算裝置752,其中音訊資料731經組態以由運算裝置752使用以使用一第二ML模型(例如,ML模型727)將所關注聲音轉譯為文字資料707。操作1108包含經由無線連接件748自運算裝置752接收文字資料707。操作1110包含藉由裝置702在裝置702之一顯示器716上顯示文字資料707。
圖12係描繪圖8之系統800之實例性操作之一流程圖1200。儘管圖12之流程圖1200係關於圖8之系統800所闡釋,但流程圖1200可應用於本文中所論述之實施例之任一者,包含圖1之系統100、圖2之系統200、圖3之系統300、圖4之頭戴式顯示裝置402、圖5之電子組件570、圖6之電子組件670、圖7A及圖7B之系統700、圖9之系統900及/或圖10之系統1000。儘管圖12之流程圖1200依循序順序繪示操作,但將瞭解,此僅為一實例,且可包含額外或替代操作。此外,圖12之操作及相關操作可依不同於所展示之順序之一順序或以一平行或重疊方式執行。
操作1202包含經由裝置802之一麥克風840接收音訊資料831。操作1204包含藉由裝置802之一聲音分類器803偵測音訊資料831是否包含一所關注聲音(例如,話音),其中聲音分類器803執行一第一ML模型(例如,ML模型826)。
操作1206包含藉由裝置802經由一無線連接件848將音訊資料831傳輸至一運算裝置852,其中經由一網路850將音訊資料831進一步傳輸至一伺服器電腦860以使用一第二ML模型(例如,ML模型829)將聲音轉譯為文字資料807。操作1208包含藉由裝置802經由無線連接件848自運算裝置852接收文字資料807。操作1210包含藉由裝置802在裝置802之一顯示器816上顯示文字資料807。
圖13A至圖13C繪示用於在一裝置1302與一運算裝置1352之間分佈影像辨識操作之一系統1300。系統1300可為圖1之系統100、圖2之系統200及/或圖3之系統300之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置1302可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置1302之組件可包含圖5之電子組件570及/或圖6之電子組件670。在一些實例中,系統1300亦包含分佈式聲音辨識操作之能力且可包含參考圖7A及圖7B之系統700、圖8之系統800、圖9之系統900及/或圖10之系統1000所論述之細節之任一者。
如圖13A中所展示,影像辨識操作係分佈於裝置1302與運算裝置1352之間。在一些實例中,影像辨識操作包含面部偵測及追蹤。然而,影像辨識操作可包含用以偵測(及追蹤)影像資料中之其他所關注區域(諸如物件、文字及條碼)之操作。裝置1302經由一無線連接件1348 (諸如一短期無線連接件,諸如藍芽或NFC)連接至運算裝置1352。在一些實例中,無線連接件1348係一藍芽連接件。在一些實例中,裝置1302及/或運算裝置1352包含使物件能夠經由藉由一或多個成像感測器1342擷取之影像資料辨識(及追蹤)之一影像辨識應用程式。
裝置1302包含執行一影像分類器1303以偵測由裝置1302上之(若干)成像感測器1342擷取之影像資料1329內是否包含一所關注物件1333之一微控制器1306。在一些實例中,所關注物件1333包含面部特徵。在一些實例中,所關注物件1333包含文字資料。在一些實例中,所關注物件1333包含OCR碼。然而,所關注物件1333可為能夠在影像資料中偵測到之任何類型之物件。影像分類器1303可包含一ML模型1326或由ML模型1326定義。ML模型1326可定義使ML模型1326進行一預測(例如,影像資料1329內是否包含所關注物件1333)所需之參數1311之一數目。ML模型1326可相對較小,因為一些更密集型影像辨識操作係卸載至運算裝置1352。例如,參數1311之數目可在10k與100k之間的一範圍內。影像分類器1303可透過其相對較小之ML模型1326來節省電力及延時。
參考圖13B,在操作1321中,影像分類器1303可自裝置1302上之(若干)成像感測器1342接收影像資料1329。在操作1323中,可啟動影像分類器1303。在操作1325中,影像分類器1303可判定在影像資料1329之一影像圖框1329a中偵測到所關注物件1333。若未偵測到所關注物件1333 (否),則在操作1328中,影像分類器1303 (及/或(若干)成像感測器1342)可轉變至一電力節省狀態。在一些實例中,在經過一時間段之後,影像分類器1303可經重新啟動(例如,程序返回至操作1323)以判定影像資料1329之一影像圖框1329a中是否偵測到所關注物件1333。若偵測到所關注物件1333 (是),則在操作1330中,裝置1302經由無線連接件1348將影像圖框1329a傳輸至運算裝置1352。例如,裝置1302上之一RF收發器1314可經由無線連接件1348傳輸影像圖框1329a。在一些實例中,裝置1302壓縮影像圖框1329a,且將經壓縮之影像圖框1329a傳輸至運算裝置1352。
參考圖13A,運算裝置1352包含執行一ML模型1327 (例如,一較大ML模型)以運算一定界框資料集1341之一物件偵測器1309。在一些實例中,定界框資料集1341係物件位置資料之一實例。定界框資料集1341可為定義所關注物件1333 (例如,面部特徵)定位在影像圖框1329a內之位置之資料。在一些實例中,參考圖13C,定界框資料集1341定義包含影像圖框1329a內之所關注物件1333之一定界框1381之座標。在一些實例中,座標包含一高度座標1383、一左座標1385、一頂部座標1387及一寬度座標1389。例如,高度座標1383可為作為整體影像高度之一比率之定界框1381之高度。左座標1385可為作為整體影像寬度之一比率之定界框1381之左座標。頂部座標1387可為作為整體影像高度之一比率之定界框1381之頂部座標。寬度座標1389可為作為整體影像寬度之一比率之定界框1381之寬度。
ML模型1327可定義使ML模型1327進行一預測(例如,運算定界框資料集1341)所需之參數1313之一數目。在一些實例中,參數1313之數目係參數1311之數目的至少十倍。在一些實例中,參數1313之數目係參數1311之數目的至少一百倍。在一些實例中,參數1313之數目係參數1311之數目的至少一千倍。在一些實例中,參數1313之數目係參數1311之數目的至少一百萬倍。在一些實例中,參數1313之數目係在1M與10M之間的一範圍內。在一些實例中,參數1313之數目大於10M。運算裝置1352經由無線連接件1348將定界框資料集1341傳輸至裝置1302。
裝置1302包含經組態以使用定界框資料集1341以追蹤一或多個後續影像圖框1329b中之所關注物件1333之一物件追蹤器1335。在一些實例中,物件追蹤器1335經組態以執行一低複雜性追蹤機制(諸如基於慣性量測單元(IMU)之翹曲、斑點偵測或光流)。例如,物件追蹤器1335可傳播用於後續影像圖框1329b之定界框資料集1341。物件追蹤器1335可包含一裁剪器1343及一壓縮器1345。裁剪器1343可使用定界框資料集1341以識別影像圖框1329b內之一影像區域1347。壓縮器1345可壓縮影像區域1347。例如,影像區域1347可表示影像圖框1329b內之已由物件追蹤器1335裁剪及壓縮之一區域。
裝置1302接著可經由無線連接件1348將影像區域1347傳輸至運算裝置1352。例如,在物件追蹤器1335追蹤所關注物件1333時,運算裝置1352可接收影像區域1347之一串流。在運算裝置1352處,物件偵測器1309可對經由無線連接件1348自裝置1302接收之影像區域1347執行影像辨識。在一些實例中,若所關注物件1333相對靠近影像區域1347之邊緣(或根本不存在),則運算裝置1352可傳輸一請求以發送一新完整圖框(例如,一新影像圖框1329a)以再次運算定界框資料集1341。在一些實例中,若影像圖框1329a不含有所關注物件1333,則運算裝置1352可傳輸一請求以進入一電力節省狀態以輪詢所關注物件。在一些實例中,一視覺指示器1351 (例如,一視覺框)可設置於裝置1302之一顯示器1316上,其中視覺指示器1351識別所關注物件1333 (例如,面部特徵)。
圖14係描繪圖13A至圖13C之系統1300之實例性操作之一流程圖1400。儘管圖14之流程圖1400係關於圖13A至圖13C之系統1300所闡釋,但流程圖1400可應用於本文中所論述之實施例之任一者,包含圖1之系統100、圖2之系統200、圖3之系統300、圖4之頭戴式顯示裝置402、圖5之電子組件570及/或圖6之電子組件670、圖7A及圖7B之系統700。儘管圖14之流程圖1400依循序順序繪示操作,但將瞭解,此僅為一實例,且可包含額外或替代操作。此外,圖14之操作及相關操作可依不同於所展示之順序之一順序或以一平行或重疊方式執行。在一些實例中,圖14之流程圖1400之操作可與圖11之流程圖1100及/或圖12之流程圖1200之操作組合。
操作1402包含經由裝置1302上之至少一個成像感測器1342接收影像資料1329。操作1404包含藉由裝置1302之一影像分類器1303偵測影像資料1329內是否包含所關注物件1333,其中影像分類器1303執行一ML模型1326。
操作1406包含經由無線連接件1348將影像資料1329 (例如,影像圖框1329a)傳輸至一運算裝置1352,其中影像圖框1329a包含所關注物件1333。影像資料1329經組態以由運算裝置1352使用以使用一ML模型1327進行影像辨識。
操作1408包含經由無線連接件1348自運算裝置1352接收一定界框資料集1341。操作1410包含藉由裝置1302使用定界框資料集1341識別後續影像資料(例如,影像圖框1329b)中之一影像區域1347。操作1412包含經由無線連接件1348將影像區域1347傳輸至運算裝置1352,其中影像區域1347經組態以由運算裝置1352使用以進行影像辨識。
圖15繪示用於在一裝置1502與一運算裝置1552之間分佈影像辨識操作之一系統1500。系統1500可為圖1之系統100、圖2之系統200、圖3之系統300及/或圖13A至圖13C之系統1300之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置1502可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置1502之組件可包含圖5之電子組件570及/或圖6之電子組件670。在一些實例中,系統1500亦包含分佈式聲音辨識操作之能力且可包含參考圖7A及圖7B之系統700、圖8之系統800、圖9之系統900及/或圖10之系統1000所論述之細節之任一者。
如圖15中所展示,影像辨識操作係分佈於裝置1502與運算裝置1552之間。在一些實例中,影像辨識操作包含面部偵測及追蹤。然而,影像辨識操作可包含用以偵測(及追蹤)影像資料中之其他所關注區域(諸如物件、文字及條碼)之操作。裝置1502經由一無線連接件1548 (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置1552。在一些實例中,無線連接件1548係一藍芽連接件。在一些實例中,裝置1502及/或運算裝置1552包含使物件能夠經由藉由成像感測器1542a及成像感測器1542b擷取之影像資料辨識(及追蹤)之一影像辨識應用程式。
成像感測器1542a可被視為一低功率、低解析度(LPLR)影像感測器。成像感測器1542b可被視為一高功率、高解析度(HPHR)影像感測器。由成像感測器1542b擷取之一影像圖框1529b具有高於由成像感測器1542a擷取之一影像圖框1529a之一解析度1573a之一解析度1573b。在一些實例中,成像感測器1542a經組態以在裝置1502經啟動且耦合至使用者時獲得影像資料(例如,影像圖框1529a) (例如,在裝置1502經啟動時連續地或週期性地擷取影像圖框1529a)。在一些實例中,成像感測器1542a經組態以作為一永遠開啟感測器操作。在一些實例中,成像感測器1542b係回應於如下文進一步論述之一所關注物件之偵測而啟動(例如,在一短持續時間內)。
裝置1502包含經組態以估計用於擷取影像資料之一照明條件之一照明條件感測器1544。在一些實例中,照明條件感測器1544包含偵測存在之環境光之量之一環境光感測器,該環境光感測器可用於確保以一所要信雜比(SNR)擷取影像圖框1529a。然而,照明條件感測器1544可包含其他類型之光度(或色度計)感測器。運動感測器1546可用於監測裝置移動(諸如傾斜、搖晃、旋轉及/或擺動)及/或用於模糊估計。感測器觸發器1571可自照明條件感測器1544接收照明條件資訊及自運動感測器1546接收運動資訊,且若照明條件資訊及運動資訊指示該等條件係可接受的以獲得一影像圖框1529a,則感測器觸發器1571可啟動成像感測器1542a以擷取一影像圖框1529a。
裝置1502包含經組態以執行一影像分類器1503之一微控制器1506,影像分類器1503偵測由成像感測器1542a擷取之影像圖框1529a內是否包含一所關注物件。類似於其他實施例,影像分類器1503可包含一ML模型或由該ML模型定義。ML模型可定義使ML模型進行一預測(例如,影像圖框1529a內是否包含所關注物件)所需之參數之一數目。ML模型可相對較小,因為一些更密集型影像辨識操作係卸載至運算裝置1552。例如,參數之數目可在10k與100k之間的一範圍內。影像分類器1503可透過其相對較小之ML模型來節省電力及延時。
若影像分類器1503偵測到影像圖框1529a內存在所關注物件,則影像分類器1503經組態以觸發成像感測器1542b以擷取影像圖框1529b。如上文所指示,影像圖框1529b具有高於影像圖框1529a之解析度1573a之一解析度1573b。裝置1502經由無線連接件1548將影像圖框1529b傳輸至運算裝置1552以用於進一步處理。在一些實例中,裝置1502壓縮影像圖框1529b,且接著將經壓縮之影像圖框1529b傳輸至運算裝置1552。在一些實例中,運動資訊及/或照明條件資訊係用於判定是否傳輸影像圖框1529b。例如,若運動資訊指示高於一臨限位準之運動(例如,運動為高),則可不傳輸影像圖框1529b,且微控制器1506可啟動成像感測器1542b以擷取另一影像圖框。若照明條件資訊指示照明條件低於一臨限位準,則可不傳輸影像圖框1529b,且微控制器1506可啟動成像感測器1542b以擷取另一影像圖框。
運算裝置1552包含經組態以使用影像圖框1529b執行影像辨識操作(包含運算一定界框資料集)之一物件偵測器1509。類似於圖13A至圖13C之系統1300之實施例,物件偵測器1509執行一較大ML模型以使用較高解析度影像(例如,影像圖框1529b)運算一定界框資料集,該定界框資料集經由無線連接件1548傳輸回至裝置1502。接著,裝置1502使用定界框資料集以追蹤一或多個後續影像圖框中之所關注物件。例如,裝置1502可使用一低複雜性追蹤機制(例如,基於慣性量測單元(IMU)之翹曲、斑點偵測或光流)以傳播用於後續影像圖框之定界框資料集。裝置1502可使用定界框資料集以識別影像圖框1529b內之一影像區域,且裝置1502可壓縮該影像區域,接著將經壓縮之影像區域傳輸回至運算裝置1552以用於影像辨識。
圖16係描繪圖15之系統1500之實例性操作之一流程圖1600。儘管圖16之流程圖1600係關於圖15之系統1500所闡釋,但流程圖1600可應用於本文中所論述之實施例之任一者,包含圖1之系統100、圖2之系統200、圖3之系統300、圖4之頭戴式顯示裝置402、圖5之電子組件570、圖6之電子組件670及/或圖13之系統1300。儘管圖16之流程圖1600依循序順序繪示操作,但將瞭解,此僅為一實例,且可包含額外或替代操作。此外,圖16之操作及相關操作可依不同於所展示之順序之一順序或以一平行或重疊方式執行。在一些實例中,圖16之流程圖1600之操作可與圖11之流程圖1100、圖12之流程圖1200及/或圖14之流程圖1400之操作組合。
操作1602包含藉由裝置1502之一第一成像感測器(例如,成像感測器1542a)接收一第一影像圖框1529a。操作1604包含藉由裝置1502之一影像分類器1503偵測第一影像圖框1529a中所關注物件之存在。
操作1606包含藉由裝置1502之一第二成像感測器(例如,成像感測器1542b)接收一第二影像圖框1529b,第二影像圖框1529b具有高於第一影像圖框1529a之一解析度1573a之一解析度1573b,其中經由一無線連接件1548將第二影像圖框1529b傳輸至運算裝置1552,且第二影像圖框1529b經組態以由運算裝置1552處之一物件偵測器1509使用。
圖17繪示用於在一裝置1702與一運算裝置1752之間分佈影像辨識操作之一系統1700。系統1700可為圖1之系統100、圖2之系統200、圖3之系統300、圖13A至圖13C之系統1300及/或圖15之系統1500之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置1702可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置1702之組件可包含圖5之電子組件570及/或圖6之電子組件670。在一些實例中,系統1700亦包含分佈式聲音辨識操作之能力且可包含參考圖7A及圖7B之系統700、圖8之系統800、圖9之系統900及/或圖10之系統1000所論述之細節之任一者。
如圖17中所展示,影像辨識操作係分佈於裝置1702與運算裝置1752之間。在一些實例中,影像辨識操作包含面部偵測及追蹤。然而,影像辨識操作可包含用以偵測(及追蹤)影像資料中之其他所關注區域(諸如物件、文字及條碼)之操作。裝置1702經由一無線連接件1748 (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置1752。在一些實例中,無線連接件1748係一藍芽連接件。在一些實例中,裝置1702及/或運算裝置1752包含使物件能夠經由藉由成像感測器1742a及成像感測器1742b擷取之影像資料辨識(及追蹤)之一影像辨識應用程式。
成像感測器1742a可被視為一低功率、低解析度(LPLR)影像感測器。成像感測器1742b可被視為一高功率、高解析度(HPHR)影像感測器。由成像感測器1742b擷取之一影像圖框1729b具有高於由成像感測器1742a擷取之一影像圖框1729a之一解析度1773a之一解析度1773b。在一些實例中,成像感測器1742a經組態以在裝置1702經啟動且耦合至使用者時獲得影像資料(例如,影像圖框1729a) (例如,在裝置1702經啟動時連續地或週期性地擷取影像圖框1729a)。在一些實例中,成像感測器1742a經組態以作為一永遠開啟感測器操作。在一些實例中,成像感測器1742b係回應於如下文進一步論述之一所關注物件之偵測而啟動(例如,在一短持續時間內)。
裝置1702包含經組態以估計用於擷取影像資料之一照明條件之一照明條件感測器1744。在一些實例中,照明條件感測器1744包含偵測存在之環境光之量之一環境光感測器,該環境光感測器可用於確保以一所要信雜比(SNR)擷取影像圖框1729a。然而,照明條件感測器1744可包含其他類型之光度(或色度計)感測器。運動感測器1746可用於監測裝置移動(諸如傾斜、搖晃、旋轉及/或擺動)及/或用於模糊估計。感測器觸發器1771可自照明條件感測器1744接收照明條件資訊及自運動感測器1746接收運動資訊,且若照明條件資訊及運動資訊指示該等條件係可接受的以獲得一影像圖框1729a,則感測器觸發器1771可啟動成像感測器1742a以擷取一影像圖框1729a。
裝置1702包含經組態以執行一分類器1703之一微控制器1706,分類器1703偵測由成像感測器1742a擷取之影像圖框1729a內是否包含一所關注區域(ROI) 1789。ROI 1789亦可被稱為一所關注物件。分類器1703可包含一ML模型或由該ML模型定義。ML模型可定義使ML模型進行一預測(例如,影像圖框1729a內是否包含ROI 1789)所需之參數之一數目。ML模型可相對較小,因為一些更密集型影像辨識操作係卸載至運算裝置1752。例如,參數之數目可在10k與100k之間的一範圍內。分類器1703可透過其相對較小之ML模型來節省電力及延時。
若分類器1703偵測到影像圖框1729a內存在ROI 1789,則分類器1703經組態以觸發成像感測器1742b以擷取影像圖框1729b。如上文所指示,影像圖框1729b具有高於影像圖框1729a之解析度1773a之一解析度1773b。裝置1702經由無線連接件1748將影像圖框1729b傳輸至運算裝置1752以用於進一步處理。在一些實例中,裝置1702壓縮影像圖框1729b,且將經壓縮之影像圖框1729b傳輸至運算裝置1752。
運算裝置1752包含執行一ML模型(例如,一較大ML模型)以運算一ROI資料集1741之一ROI分類器1709。在一些實例中,ROI資料集1741係物件位置資料及/或定界框資料集之一實例。ROI資料集1741可為定義ROI 1789定位在影像圖框1729b內之位置之資料。運算裝置1752可經由無線連接件1748將ROI資料集1741傳輸至裝置1702。
裝置1702包含經組態以使用ROI資料集1741以追蹤一或多個後續影像圖框中之ROI 1789之一ROI追蹤器1735。在一些實例中,ROI追蹤器1735經組態以執行一低複雜性追蹤機制(諸如基於慣性量測單元(IMU)之翹曲、斑點偵測或光流)。例如,ROI分類器1709可傳播用於後續影像圖框之ROI資料集1741。ROI追蹤器1735可包含一裁剪器1743及一壓縮器1745。裁剪器1743可使用ROI資料集1741以識別影像圖框1729b內之一影像區域1747。壓縮器1745可壓縮影像區域1747。例如,影像區域1747可表示影像圖框1729b內之已由ROI追蹤器1735裁剪及壓縮之一區域,其中影像區域1747包含ROI 1789。
裝置1702接著可經由無線連接件1748將影像區域1747傳輸至運算裝置1752。例如,在ROI追蹤器1735追蹤ROI 1789時,運算裝置1752可接收影像區域1747之一串流。在運算裝置1752處,ROI分類器1709可對經由無線連接件1748自裝置1702接收之影像區域1747執行物件偵測。在一些實例中,若ROI 1789相對靠近影像區域1747之邊緣(或根本不存在),則運算裝置1752可傳輸一請求以發送一新完整圖框(例如,一新影像圖框1729a)以再次運算ROI資料集1741。在一些實例中,若影像圖框1729a不含有ROI 1789,則運算裝置1752可傳輸一請求以進入一電力節省狀態以輪詢ROI 1789。在一些實例中,一視覺指示器1787係設置於裝置1702之一顯示器1716上,其中視覺指示器1787識別ROI 1789。
圖18繪示用於在一裝置1802與一運算裝置1852之間分佈影像辨識操作之一系統1800。系統1800可為圖1之系統100、圖2之系統200、圖3之系統300、圖13A至圖13C之系統1300、圖15之系統1500及圖17之系統1700之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置1802可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置1802之組件可包含圖5之電子組件570及/或圖6之電子組件670。在一些實例中,系統1800亦包含分佈式聲音辨識操作之能力且可包含參考圖7A及圖7B之系統700、圖8之系統800、圖9之系統900及/或圖10之系統1000所論述之細節之任一者。
如圖18中所展示,影像辨識操作係分佈於裝置1802與運算裝置1852之間。在一些實例中,影像辨識操作包含面部偵測及追蹤。然而,影像辨識操作可包含用以偵測(及追蹤)影像資料中之其他所關注區域(諸如物件、文字及條碼)之操作。裝置1802經由一無線連接件(例如,無線電資源1867) (諸如一短期無線連接件,諸如藍芽或NFC連接件)連接至運算裝置1852。在一些實例中,無線連接件係一藍芽連接件。在一些實例中,裝置1802及/或運算裝置1852包含使物件能夠經由藉由攝影機1842a及攝影機1842b擷取之影像資料辨識(及追蹤)之一影像辨識應用程式。
攝影機1842a可被視為一低功率、低解析度(LPLR)攝影機。攝影機1842b可被視為一高功率、高解析度(HPHR)攝影機。由攝影機1842b擷取之一影像圖框具有高於由攝影機1842a擷取之一影像圖框之一解析度之一解析度。在一些實例中,攝影機1842a經組態以在裝置1802經啟動且耦合至使用者時獲得影像資料(例如,在裝置1802經啟動時連續地或週期性地擷取影像圖框)。在一些實例中,攝影機1842a經組態以作為一永遠開啟感測器操作。在一些實例中,攝影機1842b係回應於如下文進一步論述之一所關注物件之偵測而啟動(例如,在一短持續時間內)。
裝置1802包含經組態以估計用於擷取影像資料之一照明條件之一照明條件感測器1844。在一些實例中,照明條件感測器1844包含偵測存在之環境光之量之一環境光感測器,該環境光感測器可用於確保以一所要信雜比(SNR)擷取影像圖框。然而,照明條件感測器1844可包含其他類型之光度(或色度計)感測器。運動感測器1846可用於監測裝置移動(諸如傾斜、搖晃、旋轉及/或擺動)及/或用於模糊估計。感測器觸發器1871可自照明條件感測器1844接收照明條件資訊及自運動感測器1846接收運動資訊(例如,模糊估計),且若照明條件資訊及運動資訊指示該等條件係可接受的以獲得一影像圖框,則感測器觸發器1871可啟動攝影機1842a以擷取具有一較低解析度之一影像圖框。在一些實例中,裝置1802包含對分類器1803提供音訊資料之一麥克風1840。
裝置1802包含偵測由攝影機1842a擷取之影像圖框內是否包含一所關注區域之一分類器1803。分類器1803可包含一ML模型或由該ML模型定義。ML模型可定義使ML模型進行一預測(例如,影像圖框內是否包含一所關注區域)所需之參數之一數目。ML模型可相對較小,因為一些更密集型影像辨識操作係卸載至運算裝置1852。例如,參數之數目可在10k與100k之間的一範圍內。分類器1803可透過其相對較小之ML模型來節省電力及延時。
若分類器1803偵測到由攝影機1842a擷取之影像圖框存在一所關注區域,則分類器1803經組態以觸發攝影機1842b以擷取一較高解析度影像。在一些實例中,裝置1802經由無線電資源1867傳輸由攝影機1842b擷取之完整影像圖框。
運算裝置1852包含執行一ML模型(例如,一較大ML模型)以運算一ROI資料集(例如,物件框,x,y)之一分類器1809。該ROI資料集可為定義所關注物件定位在影像圖框內之位置之資料。運算裝置1852可將ROI資料集傳輸至裝置1802。分類器1803可將ROI資料集提供至一裁剪器1843,裁剪器1843裁剪後續影像圖框以識別一影像區域。該影像區域係由一壓縮器1845壓縮且經由無線電資源1867傳輸至運算裝置1852。在一些實例中,裝置1802包含一動作管理器1865,動作管理器1865自分類器1809接收ROI偵測且可在裝置1802之一顯示器1816上提供一視覺指示器或其他動作。
圖19係描繪圖17之系統1700之實例性操作之一流程圖1900。儘管圖19之流程圖1900係關於圖17之系統1700所闡釋,但流程圖1900可應用於本文中所論述之實施例之任一者,包含圖1之系統100、圖2之系統200、圖3之系統300、圖4之頭戴式顯示裝置402、圖5之電子組件570、圖6之電子組件670、圖7A及圖7B之系統700、圖8之系統800、圖9之系統900、圖10之系統1000、圖13A至圖13C之系統1300、圖15之系統1500及/或圖18之系統1800。儘管圖19之流程圖1900依循序順序繪示操作,但將瞭解,此僅為一實例,且可包含額外或替代操作。此外,圖19之操作及相關操作可依不同於所展示之順序之一順序或以一平行或重疊方式執行。在一些實例中,圖19之流程圖1900之操作可與圖11之流程圖1100、圖12之流程圖1200、圖14之流程圖1400及/或圖16之流程圖1600之操作組合。
操作1902包含啟動裝置1702之一第一成像感測器1742a以擷取第一影像資料(例如,影像圖框1729a)。操作1904包含藉由裝置1702之一分類器1703偵測第一影像資料內是否包含一所關注區域(ROI) 1789,其中分類器1703執行一ML模型。
操作1906包含回應於在第一影像資料內偵測到ROI 1789而啟動裝置1702之一第二成像感測器1742b以擷取第二影像資料(例如,影像圖框1729b)。第二影像資料具有高於第一影像資料之一解析度1773a之一解析度1773b。操作1908包含經由無線連接件1748將第二成像資料傳輸至一運算裝置1752,其中第二影像資料1729b係由運算裝置1752使用以使用一ML模型進行影像處理。
圖20繪示用於在一裝置2002與一運算裝置2052之間分佈影像辨識操作之一系統2000。系統2000可為圖1之系統100、圖2之系統200及/或圖3之系統300之一實例且可包含參考彼等圖所論述之細節之任一者。在一些實例中,裝置2002可為圖4之頭戴式顯示裝置402之一實例且可包含參考該圖所論述之細節之任一者。在一些實例中,裝置2002之組件可包含圖5之電子組件570及/或圖6之電子組件670。在一些實例中,系統2000亦包含分佈式聲音辨識操作之能力且可包含參考圖7A及圖7B之系統700、圖8之系統800、圖9之系統900及/或圖10之系統1000所論述之細節之任一者。在一些實例中,系統2000亦包含分佈式影像辨識操作之能力且可包含參考圖13A至圖13C之系統1300、圖15之系統1500、圖17之系統1700及圖18之系統1800所論述之細節之任一者。
如圖20中所展示,用於語音命令之熱字辨識操作係分佈於裝置2002與運算裝置2052之間。裝置2002可包含一語音命令偵測器2093,語音命令偵測器2093執行一ML模型2026 (例如,一守門模型)以針對用於一語音命令2090之一熱字(例如,「ok G」或「ok D」)之一初始部分連續地(例如,週期性地)處理來自裝置2002上之一麥克風2040之麥克風樣本(例如,音訊資料2031)。若語音命令偵測器2093偵測到該初始部分,則語音命令偵測器2093可引起一緩衝器2091擷取後續音訊資料2031。又,裝置2002可經由無線連接件2048將一音訊部分2092傳輸至運算裝置2052。在一些實例中,裝置2002壓縮音訊部分2092,且接著傳輸經壓縮之音訊部分2092。音訊部分2092可為緩衝器之一部分。例如,音訊部分2092可為來自緩衝器2091之頭部之音訊資料2031之1秒至2秒。
運算裝置2052包含經組態以執行一ML模型2027 (例如,一較大ML模型)以使用音訊部分2092執行完整熱字辨識之一熱字辨識引擎2094。例如,ML模型2027接收音訊部分2092作為一輸入,且ML模型2027預測音訊部分2092是否包含一熱字(例如,「ok Google、Ok device」)。若音訊部分2092係一偽陽性2094,則運算裝置2052可將一解除命令2096傳輸至裝置2002,裝置2002摒棄緩衝器2091之內容(例如,音訊資料2031)。若音訊部分2092係一真陽性2095,則將緩衝器2091之剩餘部分2099傳輸至運算裝置2052。在一些實例中,裝置2002壓縮緩衝器2091內之音訊資料2031 (或緩衝器2091之剩餘部分2099)且將經壓縮之音訊資料2031傳輸至運算裝置2052。運算裝置2052包含使用音訊資料2031 (例如,緩衝器2091之剩餘部分2099及音訊部分2092)以判定一動作命令2098 (例如,編寫一電子郵件、拍攝一照片等)之一命令產生器2097。運算裝置2052可經由無線連接件2048將動作命令2098傳輸至裝置2002。
圖21係描繪圖20之系統2000之實例性操作之一流程圖2100。儘管圖21之流程圖2100係關於圖20之系統2000所闡釋,但流程圖2100可應用於本文中所論述之實施例之任一者,包含圖1之系統100、圖2之系統200、圖3之系統300、圖4之頭戴式顯示裝置402、圖5之電子組件570、圖6之電子組件670、圖7A及圖7B之系統700、圖8之系統800、圖9之系統900、圖10之系統1000、圖13A至圖13C之系統1300、圖15之系統1500及/或圖18之系統1800。儘管圖21之流程圖2100依循序順序繪示操作,但將瞭解,此僅為一實例,且可包含額外或替代操作。此外,圖21之操作及相關操作可依不同於所展示之順序之一順序或以一平行或重疊方式執行。在一些實例中,圖21之流程圖2100之操作可與圖11之流程圖1100、圖12之流程圖1200、圖14之流程圖1400、圖16之流程圖1600及/或圖19之流程圖1900之操作組合。
操作2102包含經由裝置2002之一麥克風2040接收音訊資料2031。操作2104包含藉由一語音命令偵測器2093自音訊資料2031偵測一熱字之一部分之一存在,其中語音命令偵測器2093執行一ML模型。
操作2106包含回應於偵測到熱字之部分而將經由麥克風2040接收之音訊資料2031儲存於裝置2002之一緩衝器2091中。操作2108包含經由一無線連接件2048將緩衝器2091之一音訊部分2092傳輸至一運算裝置2052,其中緩衝器2091之音訊部分2092經組態以由運算裝置2052使用以執行熱字辨識。
儘管所揭示之發明概念包含隨附發明申請專利範圍中所定義之彼等,但應理解,本發明概念亦可根據以下實施例來定義:
實施例1係一種使用一穿戴式裝置進行分佈式聲音辨識之方法,其包括:經由該穿戴式裝置之一麥克風接收音訊資料;藉由該穿戴式裝置之一聲音分類器偵測該音訊資料是否包含一所關注聲音;及回應於在該音訊資料內偵測到該所關注聲音而經由一無線連接件將該音訊資料傳輸至一運算裝置。
實施例2係如實施例1之方法,其中該聲音分類器執行一第一機器學習(ML)模型。
實施例3係如實施例1至2中任一項之方法,其中該音訊資料經組態以由該運算裝置或一伺服器電腦使用以使用一第二ML模型進行進一步聲音辨識。
實施例4係如實施例1至3中任一項之方法,其中該音訊資料經組態以由該運算裝置使用以進行進一步聲音辨識。
實施例5係如實施例1至4中任一項之方法,其中該音訊資料經組態以由該伺服器電腦使用以進行進一步聲音辨識。
實施例6係如實施例1至5中任一項之方法,其中該伺服器電腦經由一網路連接至該運算裝置。
實施例7係如實施例1至6中任一項之方法,其中該所關注聲音包含話音。
實施例8係如實施例1至7中任一項之方法,其中該音訊資料經組態以由該運算裝置或該伺服器電腦使用以使用該第二ML模型將該話音轉譯為文字資料。
實施例9係如實施例1至8中任一項之方法,其中該方法進一步包括經由該無線連接件自該運算裝置接收該文字資料。
實施例10係如實施例1至9中任一項之方法,其中該話音係用一第一語言,且該文字資料係用一第二語言,該第二語言不同於該第一語言。
實施例11係如實施例1至10中任一項之方法,其進一步包括在該穿戴式裝置之一顯示器上顯示該文字資料。
實施例12係如實施例1至11中任一項之方法,其進一步包括壓縮該音訊資料,其中經由該無線連接件將該經壓縮之音訊資料傳輸至該運算裝置。
實施例13係如實施例1至12中任一項之方法,其進一步包括自該音訊資料提取特徵,其中經由該無線連接件將該等經提取特徵傳輸至該運算裝置。
實施例14係如實施例1至13中任一項之方法,其中該無線連接件係一短距離無線連接件。
實施例15係如實施例1至14中任一項之方法,其中該穿戴式裝置包含智慧型眼鏡。
實施例16係一種包括一或多個電腦及儲存可操作之指令之一或多個儲存裝置之系統,該等指令在藉由該一或多個電腦執行時引起該一或多個電腦執行如實施例1至15中任一項之方法。
實施例17係一種經組態以執行如實施例1至15中任一項之穿戴式裝置。
實施例18係一種用一電腦程式編碼之電腦儲存媒體,該程式包括可操作之指令,該等指令在藉由資料處理設備執行時引起該資料處理設備執行如實施例1至15中任一項之方法。
實施例19係一種儲存可執行指令之非暫時性電腦可讀媒體,該等可執行指令在藉由至少一個處理器執行時引起該至少一個處理器:自一穿戴式裝置之一麥克風接收音訊資料;藉由該穿戴式裝置之一聲音分類器偵測該音訊資料是否包含一所關注聲音;及回應於在該音訊資料內偵測到該所關注聲音而經由一無線連接件將該音訊資料傳輸至一運算裝置。
實施例20係如實施例19之非暫時性電腦可讀媒體,其中該聲音分類器經組態以執行一第一機器學習(ML)模型。
實施例21係如實施例19至20中任一項之非暫時性電腦可讀媒體,其中該音訊資料經組態以由該運算裝置使用以使用一第二ML模型進行進一步聲音辨識。
實施例22係如實施例19至21中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器回應於在該音訊資料內未偵測到該所關注聲音而繼續藉由該聲音分類器偵測該音訊資料是否包含該所關注聲音之指令。
實施例23係如實施例19至22中任一項之非暫時性電腦可讀媒體,其中該所關注聲音包含話音。
實施例24係如實施例19至22中任一項之非暫時性電腦可讀媒體,其中該音訊資料經組態以由該運算裝置使用以使用該第二ML模型將該話音轉譯為文字資料。
實施例25係如實施例19至24中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器經由該無線連接件自該運算裝置接收該文字資料之指令。
實施例26係如實施例19至25中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器壓縮該音訊資料之指令,其中經由該無線連接件將該經壓縮之音訊資料傳輸至該運算裝置。
實施例27係如實施例19至26中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器自該音訊資料提取特徵之指令,其中經由該無線連接件將該等經提取特徵傳輸至該運算裝置。
實施例28係如實施例19至27中任一項之非暫時性電腦可讀媒體,其中該穿戴式裝置包含智慧型眼鏡。
實施例29係如實施例19至28中任一項之非暫時性電腦可讀媒體,其中該運算裝置包含一智慧型電話。
實施例30係一種包含如實施例19至29中任一項之非暫時性電腦可讀媒體之操作之方法。
實施例31係一種包含如實施例19至29中任一項之特徵之穿戴式裝置。
實施例32係一種用於分佈式聲音辨識之穿戴式裝置,該穿戴式裝置包括:一麥克風,其經組態以擷取音訊資料;一聲音分類器,其經組態以偵測該音訊資料是否包含一所關注聲音;及一射頻(RF)收發器,其經組態以回應於在該音訊資料內偵測到該所關注聲音而經由一無線連接件將該音訊資料傳輸至一運算裝置。
實施例33係如實施例32之穿戴式裝置,其中該聲音分類器包含一第一機器學習(ML)模型。
實施例34係如實施例32至33中任一項之穿戴式裝置,其中該音訊資料經組態以由該運算裝置或一伺服器電腦使用以使用一第二ML模型將該所關注聲音轉譯為文字資料。
實施例35係如實施例32至34中任一項之穿戴式裝置,其中該RF收發器經組態以經由該無線連接件自該運算裝置接收該文字資料。
實施例36係如實施例32至35中任一項之穿戴式裝置,其中該穿戴式裝置進一步包括經組態以顯示該文字資料之一顯示器。
實施例37係如實施例32至36中任一項之穿戴式裝置,其中該穿戴式裝置包含智慧型眼鏡。
實施例38係如實施例32至37中任一項之穿戴式裝置,其中該無線連接件係一藍芽連接件。
實施例39係一種用於聲音辨識之運算裝置,其包含:至少一個處理器;及儲存可執行指令之一非暫時性電腦可讀媒體,該等可執行指令在藉由該至少一個處理器執行時引起該至少一個處理器:經由一無線連接件自一穿戴式裝置接收音訊資料,該音訊資料具有藉由執行一第一機器學習(ML)模型之一聲音分類器偵測之一所關注聲音;判定是否使用該運算裝置上之一聲音辨識引擎將該所關注聲音轉譯為文字資料;回應於使用該運算裝置上之該聲音辨識引擎之該判定,藉由該聲音辨識引擎將該所關注聲音轉譯為該文字資料,該聲音辨識引擎經組態以執行一第二ML模型;及經由該無線連接件將該文字資料傳輸至該穿戴式裝置。
實施例40係如實施例39之運算裝置,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:回應於不使用該運算裝置上之該聲音辨識引擎之該判定而經由一網路將該音訊資料傳輸至一伺服器電腦;及經由該網路自該伺服器電腦接收該文字資料。
實施例41係如實施例39至40中任一項之運算裝置,其中該運算裝置包含一智慧型電話。
實施例42係一種包含如實施例39至40中任一項之運算裝置之操作之方法。
實施例43係一種用一電腦程式編碼之電腦儲存媒體,該程式包括可操作之指令,該等指令在藉由資料處理設備執行時引起該資料處理設備執行如實施例39至40中任一項之運算裝置之操作。
實施例44係一種使用一穿戴式裝置進行分佈式影像辨識之方法,其包含:經由該穿戴式裝置之至少一個成像感測器接收影像資料;藉由該穿戴式裝置之一影像分類器偵測該影像資料內是否包含一所關注物件;及經由一無線連接件將該影像資料傳輸至一運算裝置。
實施例45係如實施例44之方法,其中該影像分類器執行一第一機器學習(ML)模型。
實施例46係如實施例44至45中任一項之方法,其中該影像資料經組態以由該運算裝置使用以使用一第二ML模型進行進一步影像辨識。
實施例47係如實施例44至46中任一項之方法,其進一步包括經由該無線連接件自該運算裝置接收一定界框資料集。
實施例48係如實施例44至47中任一項之方法,其進一步包括藉由該穿戴式裝置之一物件追蹤器使用該定界框資料集識別由該至少一個成像感測器擷取之後續影像資料中之一影像區域。
實施例49係如實施例44至48中任一項之方法,其進一步包括經由該無線連接件將該影像區域傳輸至該運算裝置,該影像區域經組態以由該運算裝置使用以進行進一步影像辨識。
實施例50係如實施例44至49中任一項之方法,其進一步包括藉由該物件追蹤器裁剪來自該後續影像資料之該影像區域。
實施例51係如實施例44至50中任一項之方法,其進一步包括藉由該物件追蹤器壓縮該影像區域,其中經由該無線網路將該經壓縮之影像區域傳輸至該運算裝置。
實施例52係如實施例44至51中任一項之方法,其中該所關注物件包含面部特徵。
實施例53係如實施例44至52中任一項之方法,其進一步包括啟動該穿戴式裝置之一第一成像感測器以擷取第一影像資料。
實施例54係如實施例44至46中任一項之方法,其進一步包括藉由該影像分類器偵測該第一影像資料是否包含該所關注物件。
實施例55係如實施例44至54中任一項之方法,其進一步包括啟動一第二成像感測器以擷取第二影像資料。
實施例56係如實施例44至45中任一項之方法,其中該第二影像資料具有高於該第一影像資料之品質之一品質。
實施例57係如實施例44至56中任一項之方法,其中經由該無線連接件將該第二影像資料傳輸至該運算裝置,該第二影像資料經組態以由該運算裝置使用以進行進一步影像辨識。
實施例58係如實施例44至57中任一項之方法,其進一步包括經由該穿戴式裝置之一光條件感測器接收光條件資訊。
實施例59係如實施例44至58中任一項之方法,其進一步包括基於該光條件資訊啟動該第一成像感測器。
實施例60係如實施例44至59中任一項之方法,其進一步包括經由該穿戴式裝置之一運動感測器接收運動資訊。
實施例61係如實施例44至60中任一項之方法,其進一步包括基於該運動資訊啟動該第一成像感測器。
實施例62係如實施例44至61中任一項之方法,其中該無線連接件係一短距離無線連接件。
實施例63係如實施例44至62中任一項之方法,其中該穿戴式裝置包含智慧型眼鏡。
實施例64係如實施例44至63中任一項之方法,其中該運算裝置包含一智慧型電話。
實施例65係一種包括一或多個電腦及儲存可操作之指令之一或多個儲存裝置之系統,該等指令在藉由該一或多個電腦執行時引起該一或多個電腦執行如實施例44至64中任一項之方法。
實施例66係一種經組態以執行如實施例44至64中任一項之穿戴式裝置。
實施例67係一種用一電腦程式編碼之電腦儲存媒體,該程式包括可操作之指令,該等指令在藉由資料處理設備執行時引起該資料處理設備執行如實施例44至64中任一項之方法。
實施例68係一種儲存可執行指令之非暫時性電腦可讀媒體,該等可執行指令在藉由至少一個處理器執行時引起該至少一個處理器:自一穿戴式裝置上之一個成像感測器接收影像資料;藉由該穿戴式裝置之一影像分類器偵測該影像資料內是否包含一所關注物件,該影像分類器經組態以執行一第一機器學習(ML)模型;及經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置使用以使用一第二ML模型運算一定界框資料集。
實施例69係如實施例68之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:經由該無線連接件自該運算裝置接收該定界框資料集;藉由該穿戴式裝置之一物件追蹤器使用該定界框資料集識別由該至少一個成像感測器擷取之後續影像資料中之一影像區域;及/或經由該無線連接件將該影像區域傳輸至該運算裝置,該影像區域經組態以由該運算裝置使用以進行進一步影像辨識。
實施例70係如實施例68至69中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:藉由該物件追蹤器裁剪來自該後續影像資料之該影像區域;及/或藉由該物件追蹤器壓縮該影像區域,其中經由該無線網路將該經壓縮之影像區域傳輸至該運算裝置。
實施例71係如實施例68至70中任一項之非暫時性電腦可讀媒體,其中該所關注物件包含一條碼或文字。
實施例72係如實施例68至71中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:啟動該穿戴式裝置之一第一成像感測器以擷取第一影像資料;藉由該影像分類器偵測該第一影像資料是否包含該所關注物件;及/或啟動一第二成像感測器以擷取第二影像資料,該第二影像資料具有高於該第一影像資料之品質之一品質,其中經由該無線連接件將該第二影像資料傳輸至該運算裝置,該第二影像資料經組態以由該運算裝置使用以進行進一步影像辨識。
實施例73係如實施例68至72中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器壓縮該第二影像資料之指令,其中該經壓縮之影像資料經由該無線連接件傳輸至該運算裝置。
實施例74係如實施例68至73中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:自該穿戴式裝置之一光條件感測器接收光條件資訊;及/或基於該光條件資訊判定是否傳輸該第二影像資料。
實施例75係如實施例68至74中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:自該穿戴式裝置之一運動感測器接收運動資訊;及基於該運動資訊判定是否傳輸該第二影像資料。
實施例76係一種用於分佈式影像辨識之穿戴式裝置,該穿戴式裝置包括:至少一個成像感測器,其經組態以擷取影像資料;一影像分類器,其經組態以偵測該影像資料內是否包含一所關注物件,該影像分類器經組態以執行一第一機器學習(ML)模型;及一射頻(RF)收發器,其經組態以經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置使用以使用一第二ML模型運算一定界框資料集。
實施例77係如實施例76之穿戴式裝置,其中該RF收發器經組態以經由該無線連接件自該運算裝置接收該定界框資料集,該穿戴式裝置進一步包含經組態以使用該定界框資料集識別由該至少一個成像感測器擷取之後續影像資料中之一影像區域之一物件追蹤器,其中該RF收發器經組態以經由該無線連接件將該影像區域傳輸至該運算裝置,該影像區域經組態以由該運算裝置使用以進行進一步影像辨識。
實施例78係如實施例76至77中任一項之穿戴式裝置,其中該穿戴式裝置進一步包括經組態以啟動一第一成像感測器以擷取第一影像資料之一感測器觸發器,該影像分類器經組態以偵測該第一影像資料是否包含該所關注物件,該感測器觸發器經組態以回應於在該第一影像資料中偵測到該所關注物件而啟動一第二成像感測器以擷取第二影像資料,該第二影像資料具有高於該第一影像資料之品質之一品質,其中該RF收發器經組態以經由該無線連接件將該第二影像資料傳輸至該運算裝置。
實施例79係一種用於分佈式影像辨識之運算裝置,該運算裝置包含:至少一個處理器;及儲存可執行指令之一非暫時性電腦可讀媒體,該等可執行指令在藉由該至少一個處理器執行時引起該至少一個處理器:經由一無線連接件自一穿戴式裝置接收影像資料,該影像資料具有藉由執行一第一機器學習(ML)模型之一影像分類器偵測之一所關注物件;使用一第二ML模型基於該影像資料運算一定界框資料集;及經由該無線連接件將該定界框資料集傳輸至該穿戴式裝置。
實施例80係如實施例79之運算裝置,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:經由該無線連接件接收後續影像資料中之一影像區域;及/或藉由該第二ML模型對該影像區域執行物件辨識。
實施例81係一種使用一穿戴式裝置進行分佈式熱字辨識之方法,其包含:經由該穿戴式裝置之一麥克風接收音訊資料;藉由該穿戴式裝置之一語音命令偵測器自該音訊資料偵測一熱字之一部分之存在,該語音命令偵測器執行一第一機器學習(ML)模型;回應於偵測到該熱字之該部分而將經由該麥克風接收之該音訊資料儲存於該穿戴式裝置之一緩衝器中;及經由一無線連接件將包含於該緩衝器中之該音訊資料之一部分傳輸至一運算裝置,該音訊資料之該部分經組態以由該運算裝置使用以使用一第二ML模型執行熱字辨識。
實施例82係如實施例81之方法,其進一步包括經由該無線連接件將包含於該緩衝器中之該音訊資料之一剩餘部分傳輸至該運算裝置。
實施例83係如實施例81至82中任一項之方法,其進一步包括經由該無線連接件自該運算裝置接收一動作命令,該動作命令引起該穿戴式裝置執行一動作。
實施例84係如實施例81至83中任一項之方法,其進一步包括:經由該無線連接件自該運算裝置接收一解除命令;及/或回應於該解除命令而摒棄包含於該緩衝器中之該音訊資料。
實施例85係一種包括一或多個電腦及儲存可操作之指令之一或多個儲存裝置之系統,該等指令在藉由該一或多個電腦執行時引起該一或多個電腦執行如實施例81至84中任一項之方法。
實施例86係一種經組態以執行如實施例81至84中任一項之穿戴式裝置。
實施例87係一種用一電腦程式編碼之電腦儲存媒體,該程式包括可操作之指令,該等指令在藉由資料處理設備執行時引起該資料處理設備執行如實施例81至84中任一項之方法。
實施例88係一種使用一穿戴式裝置感測具有多解析度之影像資料之方法,該方法包括:啟動該穿戴式裝置之一第一成像感測器以擷取第一影像資料;藉由該穿戴式裝置之一分類器偵測該第一影像資料內是否包含一所關注區域(ROI),該分類器執行一第一機器學習(ML)模型;回應於在該第一影像資料內偵測到該ROI而啟動該穿戴式裝置之一第二成像感測器以擷取第二影像資料,該第二影像資料具有高於該第一影像資料之一解析度之一解析度;及經由一無線連接件將該第二影像資料傳輸至一運算裝置,該第二影像資料經組態以由該運算裝置使用以使用一第二ML模型進行影像處理。
鑑於上文描述,可向一使用者提供控制,從而容許該使用者關於本文中所描述之系統、程式或特徵是否以及何時可實現使用者資訊(例如,關於一使用者之社群網路、社交行動或活動、職業、一使用者之偏好或一使用者之當前位置之資訊)之收集,及是否自一伺服器向使用者發送內容或通信作出選擇。另外,在儲存或使用特定資料之前可以一或多種方式處理特定資料,使得移除個人可識別資訊。例如,可處理一使用者之身份使得不可針對該使用者判定個人可識別資訊,或可概括化一使用者之地理位置,其中獲得位置資訊(諸如至一城市、郵遞區號或州級),使得無法判定一使用者之一特定位置。因此,使用者可控制收集關於使用者之什麼資訊,如何使用該資訊及向使用者提供什麼資訊。
本文所描述之系統及技術之各項實施方案可實現於數位電子電路系統、積體電路系統、專門設計之ASIC (特定應用積體電路)、電腦硬體、韌體、軟體及/或其等之組合中。此等不同實施方案可包含一或多個電腦程式中之實施方案,該一或多個電腦程式可在包含至少一個可程式化處理器(其可係專用或通用的,經耦合以自一儲存系統接收資料及指令及將資料及指令傳輸至該儲存系統)、至少一個輸入裝置及至少一個輸出裝置之可程式化系統上執行及/或解譯。
此等電腦程式(亦稱為程式、軟體、軟體應用程式或程式碼)包含用於一可程式化處理器之機器指令,且可以高階程序性及/或物件導向程式設計語言,及/或以組合語言/機器語言實施。如本文中所使用,術語「機器可讀媒體」「電腦可讀媒體」係指用於提供機器指令及/或資料至一可程式化處理器(其包含接收機器指令作為一機器可讀信號之一機器可讀媒體)之任何電腦程式產品、設備及/或裝置(例如,磁碟、光碟、記憶體、可程式化邏輯裝置(PLD))。術語「機器可讀信號」係指用於提供機器指令及/或資料至一可程式化處理器之任何信號。
為提供與一使用者之互動,可在一電腦上實施本文所描述之系統及技術,該電腦具有用於向該使用者顯示資訊之一顯示裝置(例如,一CRT (陰極射線管)或LCD (液晶顯示器)監視器)及該使用者可藉由其提供輸入至該電腦之一鍵盤及一指標裝置(例如,一滑鼠或一軌跡球)。其他種類之裝置亦可用於提供與一使用者之互動;例如,提供給該使用者之回饋可係任何形式之感覺回饋(例如,視覺回饋、聽覺回饋或觸覺回饋);且來自該使用者之輸入可以任何形式接收,包含聲音、話音或觸覺輸入。
可在運算系統中實施本文所描述之系統及技術,該運算系統包含一後端組件(例如,作為一資料伺服器),或包含一中間軟體組件(例如,一應用程式伺服器),或包含一前端組件(例如,具有一使用者可透過其與本文所描述之系統及技術之實施方案互動之一圖形使用者介面或一網頁瀏覽器之一用戶端電腦),或此等後端、中間軟體或前端組件之任何組合。該系統之該等組件可藉由任何形式或媒體之數位資料通信(例如,一通信網路)互連。通信網路之實例包含一區域網路(「LAN」)、一廣域網路(「WAN」)及網際網路。
運算系統可包含用戶端及伺服器。一用戶端及伺服器一般彼此遠離且通常透過一通信網路互動。用戶端與伺服器的關係藉由運行於各自電腦上且彼此具有一用戶端-伺服器關係之電腦程式而發生。
在本說明書及隨附發明申請專利範圍中,除非上下文另有清楚地規定,否則單數形式「一(a/an)」及「該」不排除複數個參照物。此外,除非上下文另有清楚地規定,否則諸如「及」、「或」及「及/或」之連詞係包含性的。例如,「A及/或B」包含單獨A、單獨B、及A與B。此外,所呈現之各種圖中所展示之連接線或連接器旨在表示各種元件之間的例示性功能關係及/或實體或邏輯耦合。許多替代或額外功能關係、實體連接或邏輯連接可存在於一實際裝置中。此外,除非元件被特別描述為「必需」或「關鍵」,否則無物品或組件對於本文中所揭示之實施例之實踐係必需的。
諸如但不限於近似、實質上、大體上等之術語在本文中用於指示不需要且無需指定一精確值或其範圍。如本文中所使用,上文所論述之術語將對一般技術者具有準備及即時含義。
此外,本文中之諸如上、下、頂部、底部、側、端、前、後等之術語之使用係參考一當前考量或繪示之定向來使用。若其等係參考另一定向來考量,則應理解,必須相應地修改此等術語。
此外,在本說明書及隨附發明申請專利範圍中,除非上下文另有清楚地規定,否則單數形式「一(a/an)」及「該」不排除複數個參照物。此外,除非上下文另有清楚地規定,否則諸如「及」、「或」及「及/或」之連詞係包含性的。例如,「A及/或B」包含單獨A、單獨B、及A與B。
儘管本文中已描述特定實例性方法、設備及製品,但本專利之涵蓋範圍並不限於此。應理解,本文中所採用之術語係出於描述特定態樣之目的且並不旨在限制。相反地,本專利涵蓋完全落在本專利之發明申請專利範圍之範疇內之所有方法、設備及製品。
100:系統 102:裝置 104:處理器 106:微控制器 108:電力管理單元(MPU) 109:權重 110:記憶體裝置 111:參數 112:應用程式 113:參數 114:射頻(RF)收發器 116:顯示器 117:觸控墊 118:顯示調節器 120:電池 122:電池充電器 124-1:推理操作 124-2:推理操作 126:機器學習(ML)模型 127:機器學習(ML)模型 128:感測器資料 129:影像資料 130:緩衝器 131:音訊資料 132:傳輸事件 134:資料封包 136a:資料封包 136b:資料封包 138:感測器 140:麥克風 142:成像感測器 142a:成像感測器 142b:成像感測器 144:照明條件感測器/光條件感測器 146:運動感測器 148:無線連接件 150:網路 152:運算裝置 154:處理器 155:作業系統 156:記憶體裝置 158:應用程式 160:伺服器電腦 200:系統 202:裝置 211:參數 215:參數 224-1:推理操作 224-2:推理操作 226:機器學習(ML)模型 228:感測器資料 229:機器學習(ML)模型 238:感測器 248:無線連接件 250:網路 252:運算裝置 260:伺服器電腦 262:處理器 264:記憶體裝置 300:系統 302:裝置 311:參數 313:參數 315:參數 324-1:推理操作 324-2:推理操作 324-3:推理操作 326:機器學習(ML)模型 327:機器學習(ML)模型 328:感測器資料 329:機器學習(ML)模型 338:感測器 348:無線連接件 350:網路 352:運算裝置 360:伺服器電腦 402:頭戴式顯示裝置 416:顯示器 469:智慧型眼鏡 470:電子組件 471:框架 472:鏡片 473:鼻樑 474:支腿 504:系統單晶片(SOC) 508:電力管理單元(PMU) 510:快閃記憶體 514:射頻(RF)收發器 516:顯示器 518:顯示調節器 520:電池 521:通用串列匯流排(USB)介面 522:電池充電器 570:電子組件 576:第一轉換器 579:第二轉換器 580:發光二極體(LED)驅動器 581:使用者控制件 582:重設按鈕 583:電力按鈕 584-1:第一使用者按鈕 584-2:第二使用者按鈕 585:使用者發光二極體(LED) 604:系統單晶片(SOC) 610:快閃記憶體 618:顯示調節器 622:電池充電器 668:印刷電路板(PCB)基板 669:顯示撓曲件 670:電子組件 700:系統 702:裝置 703:聲音分類器 706:微控制器 707:文字資料 709:聲音辨識引擎 711:參數 713:參數 714:射頻(RF)收發器 716:顯示器 721:操作 723:操作 725:操作 726:機器學習(ML)模型 727:機器學習(ML)模型 731:音訊資料 740:麥克風 748:無線連接件 752:運算裝置 800:系統 802:裝置 803:聲音分類器 806:微控制器 807:文字資料 809:聲音辨識引擎 811:參數 814:射頻(RF)收發器 815:參數 816:顯示器 826:機器學習(ML)模型 829:機器學習(ML)模型 831:音訊資料 840:麥克風 848:無線連接件 850:網路 852:運算裝置 860:伺服器電腦 900:系統 902:裝置 907:文字資料 909:聲音辨識引擎 914:射頻(RF)收發器 916:顯示器 921:麥克風 931:音訊資料 948:無線連接件 952:運算裝置 1000:系統 1002:裝置 1003:聲音分類器 1007:文字資料 1009:聲音辨識引擎 1014:射頻(RF)收發器 1016:顯示器 1021:麥克風 1031:音訊資料 1048:無線連接件 1050:網路 1052:運算裝置 1060:伺服器電腦 1100:流程圖 1102:操作 1104:操作 1106:操作 1108:操作 1110:操作 1200:流程圖 1202:操作 1204:操作 1206:操作 1208:操作 1210:操作 1300:系統 1302:裝置 1303:影像分類器 1306:微控制器 1309:物件偵測器 1311:參數 1313:參數 1314:射頻(RF)收發器 1316:顯示器 1321:操作 1323:操作 1325:操作 1326:機器學習(ML)模型 1327:機器學習(ML)模型 1328:操作 1329:影像資料 1329a:影像圖框 1329b:影像圖框 1330:操作 1333:所關注物件 1335:物件追蹤器 1341:定界框資料集 1342:成像感測器 1343:裁剪器 1345:壓縮器 1347:影像區域 1348:無線連接件 1351:視覺指示器 1352:運算裝置 1381:定界框 1383:高度座標 1385:左座標 1387:頂部座標 1389:寬度座標 1400:流程圖 1402:操作 1404:操作 1406:操作 1408:操作 1410:操作 1412:操作 1500:系統 1502:裝置 1503:影像分類器 1506:微控制器 1509:物件偵測器 1529a:影像圖框/第一影像圖框 1529b:影像圖框/第二影像圖框 1542a:成像感測器 1542b:成像感測器 1544:照明條件感測器 1546:運動感測器 1548:無線連接件 1552:運算裝置 1571:感測器觸發器 1573a:解析度 1573b:解析度 1600:流程圖 1602:操作 1604:操作 1606:操作 1700:系統 1702:裝置 1703:分類器 1706:微控制器 1709:所關注區域(ROI)偵測器 1716:顯示器 1729a:影像圖框 1729b:影像圖框 1735:所關注區域(ROI)追蹤器 1741:所關注區域(ROI)資料集 1742a:成像感測器/第一成像感測器 1742b:成像感測器/第二成像感測器 1743:裁剪器 1744:照明條件感測器 1745:壓縮器 1746:運動感測器 1747:影像區域 1748:無線連接件 1752:運算裝置 1771:感測器觸發器 1773a:解析度 1773b:解析度 1787:視覺指示器 1789:所關注區域(ROI) 1800:系統 1802:裝置 1803:分類器 1809:分類器 1816:顯示器 1840:麥克風 1842a:攝影機 1842b:攝影機 1843:裁剪器 1844:照明條件感測器 1845:壓縮器 1846:運動感測器 1852:運算裝置 1865:動作管理器 1867:無線電資源 1871:感測器觸發器 1900:流程圖 1902:操作 1904:操作 1906:操作 1908:操作 2000:系統 2002:裝置 2026:機器學習(ML)模型 2027:機器學習(ML)模型 2031:音訊資料 2040:麥克風 2048:無線連接件 2052:運算裝置 2090:語音命令 2091:緩衝器 2092:音訊部分 2093:語音命令偵測器 2094:熱字辨識引擎/偽陽性 2095:真陽性 2096:解除命令 2097:命令產生器 2098:動作命令 2099:剩餘部分 2100:流程圖 2102:操作 2104:操作 2106:操作 2108:操作 L:長度 W:寬度
圖1繪示根據一態樣之用於跨包含一穿戴式裝置及一運算裝置之多個裝置分佈影像及/或音訊處理之一系統。
圖2繪示根據一態樣之用於跨一穿戴式裝置及一伺服器電腦分佈影像及/或音訊處理之一系統。
圖3繪示根據一態樣之用於跨一穿戴式裝置、一運算裝置及一伺服器電腦分佈影像及/或音訊處理之一系統。
圖4繪示根據一態樣之一頭戴式顯示裝置之一實例。
圖5繪示根據一態樣之一頭戴式顯示裝置上之一電子組件之一實例。
圖6繪示根據一態樣之一頭戴式顯示裝置上之一電子組件之一印刷電路板基板。
圖7A繪示根據一態樣之用於在一穿戴式裝置與一運算裝置之間分佈音訊處理之一系統。
圖7B繪示根據一態樣之一聲音分類器。
圖8繪示根據一態樣之用於在一穿戴式裝置與一伺服器電腦之間分佈音訊處理之一系統。
圖9繪示根據一態樣之使用一穿戴式裝置及一運算裝置進行音訊處理之一系統。
圖10繪示根據一態樣之使用一穿戴式裝置、一運算裝置及一伺服器電腦進行音訊處理之一系統。
圖11繪示根據一態樣之使用一穿戴式裝置進行音訊處理之一流程圖。
圖12繪示根據另一態樣之使用一穿戴式裝置進行音訊處理之一流程圖。
圖13A繪示根據一態樣之使用一穿戴式裝置及一運算裝置進行影像處理之一系統。
圖13B繪示根據一態樣之一影像分類器。
圖13C繪示根據一態樣之定界框資料集之一實例。
圖14繪示根據一態樣之使用一穿戴式裝置進行影像處理之一流程圖。
圖15繪示根據一態樣之使用一穿戴式裝置及一運算裝置進行影像處理之一系統。
圖16繪示根據一態樣之使用一穿戴式裝置進行影像處理之一流程圖。
圖17繪示根據一態樣之使用一穿戴式裝置及一運算裝置進行影像處理之一系統。
圖18繪示根據一態樣之使用一穿戴式裝置及一運算裝置進行音訊及/或影像處理之一系統。
圖19繪示根據一態樣之使用一穿戴式裝置進行影像處理之一流程圖。
圖20繪示根據一態樣之使用一穿戴式裝置及一運算裝置進行音訊處理之一系統。
圖21繪示根據一態樣之使用一穿戴式裝置進行音訊處理之一流程圖。
100:系統
102:裝置
104:處理器
106:微控制器
108:電力管理單元(MPU)
109:權重
110:記憶體裝置
111:參數
112:應用程式
113:參數
114:射頻(RF)收發器
116:顯示器
117:觸控墊
118:顯示調節器
120:電池
122:電池充電器
124-1:推理操作
124-2:推理操作
126:機器學習(ML)模型
127:機器學習(ML)模型
128:感測器資料
129:影像資料
130:緩衝器
131:音訊資料
132:傳輸事件
134:資料封包
136a:資料封包
136b:資料封包
138:感測器
140:麥克風
142:成像感測器
142a:成像感測器
142b:成像感測器
144:照明條件感測器/光條件感測器
146:運動感測器
148:無線連接件
150:網路
152:運算裝置
154:處理器
155:作業系統
156:記憶體裝置
158:應用程式
160:伺服器電腦

Claims (21)

  1. 一種使用一穿戴式裝置進行分佈式影像辨識之方法,該方法包括:經由該穿戴式裝置之至少一個成像感測器接收影像資料;藉由該穿戴式裝置之一影像分類器偵測該影像資料內是否包含一所關注物件,該影像分類器執行一第一機器學習(ML)模型;及經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置上之一第二ML模型使用以進行影像分類。
  2. 如請求項1之方法,其進一步包括:經由該無線連接件自該運算裝置接收物件位置資料,該物件位置資料識別該影像資料中之該所關注物件之一位置;藉由該穿戴式裝置之一物件追蹤器使用該物件位置資料識別由該至少一個成像感測器擷取之後續影像資料中之一影像區域;及經由該無線連接件將該影像區域傳輸至該運算裝置,該影像區域經組態以由該第二ML模型使用以進行進一步影像分類。
  3. 如請求項2之方法,其進一步包括:藉由該物件追蹤器裁剪來自該後續影像資料之該影像區域;及藉由該物件追蹤器壓縮該影像區域,其中經由該無線連接件將該經壓縮之影像區域傳輸至該運算裝置。
  4. 如請求項1至3中任一項之方法,其中該所關注物件包含面部特徵。
  5. 如請求項1至3中任一項之方法,其中該方法進一步包括:啟動該穿戴式裝置之一第一成像感測器以擷取第一影像資料;藉由該影像分類器偵測該第一影像資料是否包含該所關注物件;及啟動一第二成像感測器以擷取第二影像資料,該第二影像資料具有高於該第一影像資料之一品質之一品質,其中經由該無線連接件將該第二影像資料傳輸至該運算裝置,該第二影像資料經組態以由該第二ML模型使用以進行進一步影像分類。
  6. 如請求項5之方法,其進一步包括:經由該穿戴式裝置之一光條件感測器接收光條件資訊;及基於該光條件資訊啟動該第一成像感測器。
  7. 如請求項5之方法,其進一步包括:經由該穿戴式裝置之一運動感測器接收運動資訊;及基於該運動資訊啟動該第一成像感測器。
  8. 如請求項1至3中任一項之方法,其中該無線連接件係一短距離無線連接件,該穿戴式裝置包含智慧型眼鏡,且該運算裝置包含一智慧型電話。
  9. 一種儲存可執行指令之非暫時性電腦可讀媒體,該等可執行指令在藉由至少一個處理器執行時引起該至少一個處理器: 自一穿戴式裝置上之一個成像感測器接收影像資料;藉由該穿戴式裝置之一影像分類器偵測該影像資料內是否包含一所關注物件,該影像分類器經組態以執行一第一機器學習(ML)模型;及經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置上之一第二ML模型使用以運算物件位置資料,該物件位置資料識別該影像資料中之該所關注物件之一位置。
  10. 如請求項9之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:經由該無線連接件自該運算裝置接收該物件位置資料;藉由該穿戴式裝置之一物件追蹤器使用該物件位置資料識別由該至少一個成像感測器擷取之後續影像資料中之一影像區域;及經由該無線連接件將該影像區域傳輸至該運算裝置,該影像區域經組態以由該第二ML模型使用以進行進一步影像分類。
  11. 如請求項10之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:藉由該物件追蹤器裁剪來自該後續影像資料之該影像區域;及藉由該物件追蹤器壓縮該影像區域,其中經由該無線連接件將該經壓縮之影像區域傳輸至該運算裝置。
  12. 如請求項9至11中任一項之非暫時性電腦可讀媒體,其中該所關注物 件包含一條碼或文字。
  13. 如請求項9至11中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:啟動該穿戴式裝置之一第一成像感測器以擷取第一影像資料;藉由該影像分類器偵測該第一影像資料是否包含該所關注物件;及啟動一第二成像感測器以擷取第二影像資料,該第二影像資料具有高於該第一影像資料之一品質之一品質,其中經由該無線連接件將該第二影像資料傳輸至該運算裝置,該第二影像資料經組態以由該第二ML模型使用以進行進一步影像分類。
  14. 如請求項13之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:壓縮該第二影像資料,其中經由該無線連接件將該經壓縮之影像資料傳輸至該運算裝置。
  15. 如請求項9至11中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:自該穿戴式裝置之一光條件感測器接收光條件資訊;及基於該光條件資訊判定是否傳輸該第二影像資料。
  16. 如請求項9至11中任一項之非暫時性電腦可讀媒體,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令:自該穿戴式裝置之一運動感測器接收運動資訊;及基於該運動資訊判定是否傳輸該第二影像資料。
  17. 一種用於分佈式影像辨識之穿戴式裝置,該穿戴式裝置包括:至少一個成像感測器,其經組態以擷取影像資料;一影像分類器,其經組態以偵測該影像資料內是否包含一所關注物件,該影像分類器經組態以執行一第一機器學習(ML)模型;及一射頻(RF)收發器,其經組態以經由一無線連接件將該影像資料傳輸至一運算裝置,該影像資料經組態以由該運算裝置上之一第二ML模型使用以運算物件位置資料,該物件位置資料識別該影像資料中之該所關注物件之一位置。
  18. 如請求項17之穿戴式裝置,其中該RF收發器經組態以經由該無線連接件自該運算裝置接收該物件位置資料,該穿戴式裝置進一步包含:一物件追蹤器,其經組態以使用該物件位置資料識別由該至少一個成像感測器擷取之後續影像資料中之一影像區域,其中該RF收發器經組態以經由該無線連接件將該影像區域傳輸至該運算裝置,該影像區域經組態以由該運算裝置使用以進行進一步影像分類。
  19. 如請求項17或18之穿戴式裝置,其中該穿戴式裝置進一步包括:一感測器觸發器,其經組態以啟動一第一成像感測器以擷取第一影像資料,該影像分類器經組態以偵測該第一影像資料是否包含該所關注物件,該感測器觸發器經組態以回應於在該第一影像資料內偵測到該所關注物件而啟動一第二成像感測器以擷取第二影像資料,該第二影像資料具有高於該第一影像資料之一品質之一品質,其中該RF收發器經組態以經由該無線連接件將該第二影像資料傳輸至該運算裝置。
  20. 一種用於分佈式影像辨識之運算裝置,該運算裝置包含:至少一個處理器;及一非暫時性電腦可讀媒體,其儲存可執行指令,該等可執行指令在藉由該至少一個處理器執行時引起該至少一個處理器:經由一無線連接件自一穿戴式裝置接收影像資料,該影像資料具有藉由執行一第一機器學習(ML)模型之一影像分類器偵測之一所關注物件;使用一第二ML模型基於該影像資料運算物件位置資料,該物件位置資料識別該影像資料中之該所關注物件之一位置;及經由該無線連接件將該物件位置資料傳輸至該穿戴式裝置。
  21. 如請求項20之運算裝置,其中該等可執行指令包含在藉由該至少一個處理器執行時引起該至少一個處理器執行以下操作之指令: 經由該無線連接件接收後續影像資料中之一影像區域;及藉由該第二ML模型對該影像區域執行物件分類。
TW110137892A 2020-10-13 2021-10-13 使用多個裝置上之多個分類器之分佈式感測器資料處理 TWI795027B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/US2020/055378 WO2022081142A1 (en) 2020-10-13 2020-10-13 Distributed sensor data processing using multiple classifiers on multiple devices
WOPCT/US20/55378 2020-10-13

Publications (2)

Publication Number Publication Date
TW202215270A TW202215270A (zh) 2022-04-16
TWI795027B true TWI795027B (zh) 2023-03-01

Family

ID=73040350

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110137892A TWI795027B (zh) 2020-10-13 2021-10-13 使用多個裝置上之多個分類器之分佈式感測器資料處理

Country Status (5)

Country Link
US (1) US20220165054A1 (zh)
EP (1) EP4004682A1 (zh)
CN (1) CN114641806A (zh)
TW (1) TWI795027B (zh)
WO (1) WO2022081142A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210152834A1 (en) * 2020-12-23 2021-05-20 Intel Corporation Technologies for region-of-interest video encoding
US11831973B2 (en) * 2021-08-05 2023-11-28 Qualcomm Incorporated Camera setting adjustment based on event mapping
US11877048B2 (en) * 2021-08-25 2024-01-16 Qualcomm Incorporated Camera initialization for reduced latency

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130169536A1 (en) * 2011-02-17 2013-07-04 Orcam Technologies Ltd. Control of a wearable device
CN105182535A (zh) * 2015-09-28 2015-12-23 大连楼兰科技股份有限公司 使用智能眼镜进行汽车维保的方法
TWM596382U (zh) * 2020-04-09 2020-06-01 樹德科技大學 手語影像辨識裝置
CN111242354A (zh) * 2020-01-03 2020-06-05 拉扎斯网络科技(上海)有限公司 用于可穿戴设备的方法、装置、电子设备及可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2447246B (en) * 2007-03-07 2012-04-18 Aurora Comp Services Ltd Controlled high resolution sub-image capture with time domain multiplexed high speed full field of view reference video stream for image biometric application
US8463025B2 (en) * 2011-04-26 2013-06-11 Nec Laboratories America, Inc. Distributed artificial intelligence services on a cell phone
JP6356552B2 (ja) * 2014-09-16 2018-07-11 東芝メモリ株式会社 情報処理装置
US10592854B2 (en) * 2015-12-18 2020-03-17 Ricoh Co., Ltd. Planogram matching
US10289925B2 (en) * 2016-11-29 2019-05-14 Sap Se Object classification in image data using machine learning models
US10574890B2 (en) * 2018-01-12 2020-02-25 Movidius Ltd. Methods and apparatus to operate a mobile camera for low-power usage
GB2575852B (en) * 2018-07-26 2021-06-09 Advanced Risc Mach Ltd Image processing
US10963745B2 (en) * 2018-11-21 2021-03-30 Intel Corporation Real time adaptive training face detection for ultra low power always on architecture

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130169536A1 (en) * 2011-02-17 2013-07-04 Orcam Technologies Ltd. Control of a wearable device
CN105182535A (zh) * 2015-09-28 2015-12-23 大连楼兰科技股份有限公司 使用智能眼镜进行汽车维保的方法
CN111242354A (zh) * 2020-01-03 2020-06-05 拉扎斯网络科技(上海)有限公司 用于可穿戴设备的方法、装置、电子设备及可读存储介质
TWM596382U (zh) * 2020-04-09 2020-06-01 樹德科技大學 手語影像辨識裝置

Also Published As

Publication number Publication date
WO2022081142A1 (en) 2022-04-21
US20220165054A1 (en) 2022-05-26
TW202215270A (zh) 2022-04-16
CN114641806A (zh) 2022-06-17
EP4004682A1 (en) 2022-06-01

Similar Documents

Publication Publication Date Title
TWI795027B (zh) 使用多個裝置上之多個分類器之分佈式感測器資料處理
US10429944B2 (en) System and method for deep learning based hand gesture recognition in first person view
CN111919433B (zh) 用于操作移动相机以用于低功率使用的方法和装置
US10341544B2 (en) Determining a matching score between users of wearable camera systems
WO2022179376A1 (zh) 手势控制方法与装置、电子设备及存储介质
US20180357479A1 (en) Body-worn system providing contextual, audio-based task assistance
US20230049339A1 (en) Low power machine learning using real-time captured regions of interest
WO2024021742A1 (zh) 一种注视点估计方法及相关设备
US20240168548A1 (en) Dynamic content presentation for extended reality systems
WO2020182447A1 (en) Detection of facial expressions
KR20210126490A (ko) 이미지 및 포즈 변화에 기반한 깊이맵 재투사 방법 및 xr 표시 장치
TWI795026B (zh) 使用多個裝置上之多個分類器之分佈式感測器資料處理
KR20240039130A (ko) 이벤트 맵핑에 기초한 카메라 설정 조정
US20240094824A1 (en) Finger gesture recognition via acoustic-optic sensor fusion
US11711332B2 (en) System and method for conversation-based notification management
EP4385199A1 (en) Low power machine learning using real-time captured regions of interest
US20210174697A1 (en) Awareness enhancement mechanism
CN117837157A (zh) 使用实时捕获的感兴趣区域的低功率机器学习
Gugulothu Functional Analysis and statistical Mechanics for exploring the Potential of Smart Glasses: An Assessment of Visually Impaired Individuals
CN116235225A (zh) 使用会话图来管理可穿戴设备上的显示内容
Abdul-Hameed et al. Enabling Social Interaction: A Face Recognition System for Visually Impaired People using OpenCV