JP7420916B2 - 機械学習システムのリアルタイム展開 - Google Patents

機械学習システムのリアルタイム展開 Download PDF

Info

Publication number
JP7420916B2
JP7420916B2 JP2022502859A JP2022502859A JP7420916B2 JP 7420916 B2 JP7420916 B2 JP 7420916B2 JP 2022502859 A JP2022502859 A JP 2022502859A JP 2022502859 A JP2022502859 A JP 2022502859A JP 7420916 B2 JP7420916 B2 JP 7420916B2
Authority
JP
Japan
Prior art keywords
display output
video
objects
video frames
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022502859A
Other languages
English (en)
Other versions
JP2022541897A (ja
Inventor
アンドリュー ニン,
タイラー ダオ,
モハマド フィダーリ,
Original Assignee
サティスファイ ヘルス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サティスファイ ヘルス インコーポレイテッド filed Critical サティスファイ ヘルス インコーポレイテッド
Publication of JP2022541897A publication Critical patent/JP2022541897A/ja
Application granted granted Critical
Publication of JP7420916B2 publication Critical patent/JP7420916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000094Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope extracting biological structures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000096Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1423Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
    • G06F3/1438Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display using more than one graphics controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2360/00Aspects of the architecture of display systems
    • G09G2360/06Use of more than one graphics processor to process data before displaying to one or more screens
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2380/00Specific applications
    • G09G2380/08Biomedical applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Signal Processing (AREA)
  • Veterinary Medicine (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

コンピュータビジョンおよび機械学習ネットワークが、デジタル画像およびビデオの両方の中のオブジェクトを分類および識別するために使用される。オブジェクト分類では、機械学習ネットワークは、特定のタイプのオブジェクトを分類するために、訓練データのセットを使用して訓練される。オブジェクト識別では、機械学習ネットワークが、画像内に存在し得る、1つ以上のオブジェクトタイプの具体的なインスタンスを認識するために使用される。しかしながら、現代の技術を用いると、リアルタイムビデオデータ内のオブジェクトタイプを評価および推測するステップは、多くの場合、グラフィカル処理ユニット(GPU)および中央処理ユニット(CPU)を集約的に使用する。ビデオデータのリアルタイムオブジェクト推測の集約的処理性質に起因して、ビデオから画像を推測するためのシステムの先行技術実施形態では、有意な遅延が、オリジナルビデオデータの像および検出されたオブジェクトのグラフィカルインジケーションを描写する、ビデオ出力の受信、処理、およびレンダリングにおいて生じる。本処理の非効率性は、有意なフレームジッタ、および秒あたり50フレームを優に下回る、表示フレームレートの降下につながる。医療手技のリアルタイムビデオ監視等のある用途は、ビデオデータ内のオブジェクトのリアルタイムの推測および検出に加えて、監視される手技の高い表示フレームレート出力を要求する。
本明細書に説明されるものは、リアルタイムビデオデータ内のオブジェクトを分類および識別するための例示的システムである。本システムは、出力データを表示する、第1のウィンドウと、第2のウィンドウとを提供する。第1のウィンドウは、少なくとも秒あたり50フレームのリアルタイムフレームレートにおいて、受信されたビデオ入力データを表示する。第2のウィンドウは、機械学習ネットワークを使用した推測プロセスを介して、ビデオ入力データ内で検出されたオブジェクトに対応する、グラフィカルインジケーションおよび/または文字情報を表示する。一実施形態では、第2のウィンドウは、第1のウィンドウのフレームレート未満またはそれに等しい、フレームレートにおいて、グラフィカルインジケーションおよび/または文字情報を表示する。第2のウィンドウは、第1の表示ウィンドウにオーバーレイする。第1のウィンドウのレンダリングおよびオブジェクトの推測および第2のウィンドウ内でのグラフィカルインジケーションの後続の表示が、並行またはマルチスレッドプロセスにおいて実施されてもよい。並行処理は、本システムが、受信されたビデオ入力データを、少なくとも秒あたり50フレームのリアルタイムフレームレートにおいて表示すること、また、グラフィカルインジケーションを、第1のウィンドウのフレームレートより低い、またはそれに等しくあり得る、フレームレートにおいて第2のウィンドウ内に表示することを可能にする。
一般に、本明細書に説明される主題の1つの革新的側面は、システム、コンピュータ可読媒体、およびビデオ画像捕捉デバイスからビデオデータを受信するための動作を含む、方法において具現化されることができる。受信されたビデオデータは、複数のビデオフレームに転換される。これらのビデオフレームは、下記に解説されるもの等、当業者によって理解されるであろうように、処理のために好適な特定の色空間フォーマットにエンコードされる。本システムは、複数のエンコードされたビデオフレームからの像を描写する、第1の表示出力をレンダリングする。本システムは、ビデオフレーム内での1つ以上のオブジェクトの発生を決定するために、機械学習ネットワークを使用して、ビデオフレームに関する推測を実施する。本システムは、複数のエンコードされたビデオフレームからの決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する、第2の表示出力をレンダリングする。本システムは、次いで、第2の表示出力のグラフィカル情報でオーバーレイされる第1の表示出力の像を含む、合成表示出力を発生させる。
本開示の可用性のさらなる領域が、詳細な説明、請求項、および図面から明白になるであろう。詳細な説明および具体的な実施例は、例証のためのものにすぎないことを意図し、本開示の範囲を限定することを意図していない。
本明細書は、例えば、以下の項目も提供する。
(項目1)
システムであって、前記システムは、1つ以上のプロセッサと、非一過性コンピュータ可読媒体とを備え、前記非一過性コンピュータ可読媒体は、命令の1つ以上のシーケンスを含み、前記命令の1つ以上のシーケンスは、前記1つ以上のプロセッサによって実行されると、前記システムに、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第1の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する第2の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第2の表示出力のグラフィカル情報でオーバーレイされる前記第1の表示出力の像を含む、ことと
を含む動作を実施させる、システム。
(項目2)
前記第1の表示出力は、秒あたり50~240フレームのフレームレートにおいて像を描写する、項目1に記載のシステム。
(項目3)
前記第2の表示出力は、前記第1の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、項目1に記載のシステム。
(項目4)
前記1つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の識別されたオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、項目1に記載のシステム。
(項目5)
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、項目1に記載のシステム。
(項目6)
前記複数のエンコードされたビデオフレームは、NV12と、I420と、YV12と、YUY2と、YUYVと、UYVYと、UVYUと、V308と、IYU2と、V408と、RGB24と、RGB32と、V410と、Y410と、Y42Tとから成る群から選択される色空間フォーマットにエンコードされる、項目1に記載のシステム。
(項目7)
前記第2の表示出力のグラフィカル情報は、前記第1の表示出力のビデオ表示面積にわたって配置される前記1つ以上のオブジェクトのグラフィカルインジケーションと、前記第1の表示出力の非ビデオ表示面積にわたって配置される前記1つ以上のオブジェクトに対応する文字情報とを含む、項目1に記載のシステム。
(項目8)
1つ以上のプロセッサから成るシステムによって実装される方法であって、前記方法は、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第1の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する第2の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第2の表示出力のグラフィカル情報でオーバーレイされる前記第1の表示出力の像を含む、ことと
を含む、方法。
(項目9)
前記第1の表示出力は、秒あたり50~240フレームのフレームレートにおいて像を描写する、項目8に記載の方法。
(項目10)
前記第2の表示出力は、前記第1の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、項目8に記載の方法。
(項目11)
前記1つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記識別されたオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、項目8に記載の方法。
(項目12)
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、項目8に記載の方法。
(項目13)
前記複数のエンコードされたビデオフレームは、NV12と、I420と、YV12と、YUY2と、YUYVと、UYVYと、UVYUと、V308と、IYU2と、V408と、RGB24と、RGB32と、V410と、Y410と、Y42Tとから成る群から選択される色空間フォーマットにエンコードされる、項目8に記載の方法。
(項目14)
前記第2の表示出力のグラフィカル情報は、前記第1の表示出力のビデオ表示面積にわたって配置される前記1つ以上のオブジェクトのグラフィカルインジケーションと、前記第1の表示出力の非ビデオ表示面積にわたって配置される前記1つ以上のオブジェクトに対応する文字情報とを含む、項目8に記載の方法。
(項目15)
非一過性コンピュータ記憶媒体であって、前記非一過性コンピュータ記憶媒体は、命令を備え、前記命令は、1つ以上のプロセッサを備えるシステムによって実行されると、前記1つ以上のプロセッサに、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第1の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する第2の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第2の表示出力のグラフィカル情報でオーバーレイされる前記第1の表示出力の像を含む、ことと
を含む動作を実施させる、非一過性コンピュータ記憶媒体。
(項目16)
前記第1の表示出力は、秒あたり50~240フレームのフレームレートにおいて像を描写する、項目15に記載の非一過性コンピュータ記憶媒体。
(項目17)
前記第2の表示出力は、前記第1の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、項目15に記載の非一過性コンピュータ記憶媒体。
(項目18)
前記1つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記識別されたオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、項目15に記載の非一過性コンピュータ記憶媒体。
(項目19)
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、項目15に記載の非一過性コンピュータ記憶媒体。
(項目20)
前記複数のエンコードされたビデオフレームは、NV12と、I420と、YV12と、YUY2と、YUYVと、UYVYと、UVYUと、V308と、IYU2と、V408と、RGB24と、RGB32と、V410と、Y410と、Y42Tとから成る群から選択される色空間フォーマットにエンコードされる、項目15に記載の非一過性コンピュータ記憶媒体。
(項目21)
前記第2の表示出力のグラフィカル情報は、前記第1の表示出力のビデオ表示面積にわたって配置される前記1つ以上のオブジェクトのグラフィカルインジケーションと、前記第1の表示出力の非ビデオ表示面積にわたって配置される前記1つ以上のオブジェクトに対応する文字情報とを含む、項目15に記載の非一過性コンピュータ記憶媒体。
本開示は、詳細な説明および図面からより深く理解されるであろう。
図1は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムのブロック図を図示する。
図2は、ビデオデータ内のオブジェクトの分類および識別の例示的プロセスを図示する。
図3は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムの高レベルブロック図を図示する。
図4は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムの低レベルブロック図を図示する。
図5は、ビデオ監視デバイスの外部環境状態を決定するためにビデオデータを評価するための例示的プロセスのフローチャートを図示する。
図6は、コンピュータシステムの例示的ユーザインターフェースを図示する。
図7は、コンピュータシステムの例示的機械を図示する。
(詳細な説明)
本明細書では、本発明の具体的な実施形態が、詳細に参照される。実施形態またはそれらの側面のうちのいくつかが図面に図示される。
解説の明確化のために、本発明は、具体的な実施形態を参照して説明されているが、しかしながら、本発明が、説明される実施形態に限定されないことを理解されたい。むしろ、本発明は、任意の特許請求項によって定義されるような、その範囲内に含まれ得るような、代替物、修正、および同等物を網羅する。本発明の以下の実施形態は、本願発明に対するいかなる一般性の喪失も伴わず、それに限界を課すことなく、記載される。以下の説明では、具体的な詳細が、本発明の徹底的な理解を提供するために記載される。本発明は、これらの具体的な詳細の一部または全てを用いることなく、実践され得る。加えて、周知の特徴が、本発明を不必要に曖昧にすることを回避するために、詳細に説明されていない場合がある。
加えて、本例示的特許に記載される例示的方法のステップが、本明細書に提示される順序と異なる順序において実施され得ることも理解されたい。さらに、例示的方法のいくつかのステップは、順次に実施されるのではなく、並行して実施されてもよい。また、例示的方法のステップは、いくつかのステップが、ネットワーク化された環境内の異なるコンピュータによって実施される、ネットワーク環境内で実施されてもよい。
いくつかの実施形態が、コンピュータシステムによって実装される。コンピュータシステムは、プロセッサと、メモリと、非一過性コンピュータ可読媒体とを含んでもよい。メモリおよび非一過性媒体は、本明細書に説明される方法およびステップを実施するための命令を記憶してもよい。
図1は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムのブロック図を図示する。コンピュータシステム100は、ビデオ転換モジュール102と、コンピュータビジョンモジュール104と、機械学習ネットワークモジュール106と、グラフィカルユーザインターフェースモジュール108とを含む。ビデオ転換モジュール102は、ビデオデータを取得することが可能である、電子デバイス110(例えば、デジタルビデオカメラ)からビデオデータを受信する。ビデオ転換モジュール102は、受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換する。コンピュータビジョンモジュール104は、複数のビデオフレームを処理し、複数のビデオフレームを記憶デバイス120上に記憶する。記憶デバイス120は、ローカルまたは遠隔データベースまたは他のタイプのストレージキャッシュであってもよい。コンピュータビジョンモジュール104は、複数のビデオフレームを、機械学習ネットワークモジュール106によって処理されるべき入力に転換する。機械学習ネットワークモジュール106は、複数のビデオフレームに関する推測を実施し、ビデオフレーム内での1つ以上のオブジェクトの発生を決定する。グラフィカルユーザインターフェースモジュール108は、第1および第2の表示出力を含む、ユーザインターフェース132として、合成表示出力をレンダリングする。第1の表示出力は、エンコードされたビデオフレームのフレームレートまたはその近傍において、エンコードされたビデオフレームを表示する。第2の表示出力は、ビデオフレーム内の決定された1つ以上のオブジェクトに対応する、グラフィカル情報を描写する。第2の表示出力は、グラフィカル情報を、第1の表示出力のフレームレート未満またはそれに等しい、フレームレートにおいて描写してもよい。コンピュータシステム100は、合成表示出力を監視デバイス(例えば、外部および一体型モニタ)に提供する。コンピュータシステム100はさらに、図7を参照して説明される。
図2は、ビデオデータ内のオブジェクトを分類および識別するための例示的プロセスのフローチャートを図示する。コンピュータシステム100は、ビデオ捕捉デバイスからビデオデータを受信する(ブロック210)。例えば、ビデオ捕捉デバイスは、デジタルビデオカメラを使用して、リアルタイムデジタルビデオを取得する。ビデオ捕捉デバイスは、直接有線接続ケーブルを介して、または無線接続を介してのいずれかでコンピュータシステム100に接続される、外部デバイスであってもよい。加えて、デジタルビデオカメラは、コンピュータシステム100の一体型コンポーネントとして構成されてもよい。理想的には、リアルタイムデジタルビデオが、高解像度において捕捉され、720p(1,280×720ピクセル)に等しい、またはそれを上回る分解能を有する。
コンピュータシステム100は、受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換する(ブロック220)。代替として、コンピュータシステム100は、すでに特定の色空間フォーマットにエンコードされている、デジタルビデオデータを受信してもよい。該当する場合、コンピュータシステム100は、エンコードされた色空間フォーマットへのビデオデータの転換を見合わせてもよい。エンコードされたビデオフレームの例示的な好適フレームレートは、秒あたり50フレームまたはそれを上回るレートである。
コンピュータシステム100は、複数のエンコードされたビデオフレームからリアルタイムの像を描写する、第1の表示出力をレンダリングする(ブロック230)。システム100は、1つ以上の専用のグラフィカル処理ユニット(GPU)の第1の群を使用し、第1の表示出力をレンダリングしてもよい。第1の表示出力は、エンコードされたビデオフレームのフレームレートまたはその近傍において、エンコードされたビデオフレームを表示する。コンピュータシステム100は、1,280×720ピクセルまたはより高い高解像度分解能において、秒あたり50フレームまたはより高い、高フレームレートにおける、第1の表示出力を介して、ビデオフレームを表示してもよい。
コンピュータシステム100は、1つ以上の専用GPUの第2の群を使用して、機械学習ネットワークを使用して、複数のビデオフレームに関する推測を実施する(ブロック240)。システム100は、デジタル画像内の1つ以上のオブジェクトタイプを分類するように訓練されている、機械学習ネットワークを使用した推測プロセスを通して、エンコードされたビデオフレームを評価する。機械学習推測プロセスは、境界ポリゴン(例えば、境界ボックス)座標を有する、オーバーレイ表示を生産する。推測の結果(すなわち、境界ポリゴン座標)が、第2の表示出力の結果をレンダリングする、1つ以上の専用GPUの第1の群のメモリに送信される。専用GPUの2つの群を使用することによって、システム100は、1つ以上のGPUの第1の群を使用した、第1および第2の表示出力のレンダリングと、1つ以上のGPUの第2の群を使用した、ビデオフレームの推測とを並行処理してもよい。
コンピュータシステム100は、複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定する(ブロック250)。コンピュータシステム100は、訓練された機械学習ネットワークを使用し、ある部類の特定のオブジェクトがビデオフレーム内に存在する尤度を識別してもよい。機械学習ネットワークは、特定の部類のオブジェクトがビデオフレーム内で生じる信頼レベル(例えば、確率)を割り当ててもよい。コンピュータシステム100は、ビデオフレーム内の識別されたオブジェクトの周囲に、またはそれを中心として、識別されたオブジェクトの場所を示す、グラフィカルインジケーションを発生させる。例えば、コンピュータシステム100は、識別されたオブジェクトの周囲に、またはそれを中心として、境界周囲(例えば、輪郭が描かれた長方形のための座標)等のグラフィカル識別子を発生させてもよい。コンピュータシステム100は、色付きのピクセル群面積、ピクセル群面積の色またはコントラストの変化、または識別されたオブジェクトの発生を示す、他のグラフィカル識別子等の他のグラフィカルインジケータを使用してもよい。
コンピュータシステム100は、ビデオフレーム内の決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する、第2の表示出力をレンダリングする(ブロック260)。グラフィカル情報は、グラフィカルインジケーション、オブジェクトのタイプを識別する文字情報、および/またはオブジェクトがあるタイプである信頼度を示す、文字情報(例えば、割合または信頼度スコア)のうちの1つ以上のものを含み得る。
オブジェクト推測の出力値(例えば、グラフィカル情報)が、1つ以上のGPUの第1の群のメモリの中の具体的場所の中に記憶される。したがって、第2の表示出力に関して、コンピュータシステム100は、全てのビデオフレームのための具体的なメモリ場所から情報を取得してもよい。システム100は、次いで、第1の表示出力と同一のフレームレートにおいて、第2の表示出力のためのグラフィカル情報をオーバーレイすることができる。言い換えると、コンピュータシステム100は、2つのウィンドウを同一のフレームレートにおいてレンダリングしてもよい。第1のウィンドウは、ビデオ捕捉デバイスによって取得されたリアルタイムの像を表示する。第2のウィンドウは、第1のウィンドウにオーバーレイし、オブジェクト推測のためのグラフィカル情報を表示する。
コンピュータシステム100は、次いで、第2の表示出力のグラフィカル情報でオーバーレイされる第1の表示出力の像を含む、合成表示出力を発生させる(ブロック270)。上記に示されるように、第1の表示出力は、エンコードされたビデオフレームのフレームレートまたはその近傍において、レンダリングされる。第2の表示出力は、訓練された機械学習ネットワークを使用して推測プロセスの間に発生される、グラフィカル情報を含む。第1の表示出力は、第2の表示出力でオーバーレイされる。第1の表示出力を第2の表示出力でオーバーレイするステップは、コンピュータシステム100が、機械学習ネットワークによってビデオ内で識別されたオブジェクトのグラフィカルインジケーションに加えて、高フレームレートでリアルタイムビデオを表示することを可能にする。コンピュータシステム100は、合成表示出力を、外部監視デバイスまたはコンピュータシステム100と一体型の監視デバイスに提供してもよい。また、コンピュータシステム100は、合成表示出力を、配信メディアサーバを介して遠隔監視デバイスに配信してもよい。例えば、遠隔監視デバイスのユーザは、インターネットまたは他のセキュリティ保護された仮想プライベートネットワークを介して、手技をリアルタイムで視認することが可能となり得る。
図3は、機械学習ネットワークのリアルタイム展開において利用される、例示的システムを図示する。ビデオ内視鏡およびプロセッサシステム310が、ビデオをコンピュータシステム330に提供する。コンピュータシステム330は、内視鏡およびプロセッサシステム310から受信されるビデオをエンコードするためのビデオ捕捉カードおよびエンコーダ320を含む。コンピュータシステム330は、中央処理ユニット(CPU)332と、2つ以上のグラフィカル処理ユニット(GPU)334と、システムメモリ336とを含む。コンピュータシステム330は、内視鏡およびプロセッサシステムからビデオデータを受信するためのモジュールと、受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換するためのモジュールと、複数のビデオフレームを処理し、複数のビデオフレームを記憶デバイス上に記憶するためのモジュールと、複数のビデオフレームを、機械学習ネットワークによって処理されるべき入力に転換するためのモジュールと、複数のビデオフレームに関する推測を実施し、ビデオフレーム内での1つ以上のオブジェクトの発生を決定するためのモジュールと、合成表示出力を、第1および第2の表示出力を含むユーザインターフェースとしてレンダリングするためのモジュールとを含む、種々のコンピュータソフトウェアモジュール338を実行する。第1の表示出力は、システム330によって取得されるリアルタイムビデオを表示する。第2の表示出力は、機械学習ネットワークによって識別されたビデオ内のオブジェクトについてのグラフィカルインジケーションおよび情報を表示する。本システムによって発生されるユーザインターフェースは、外部監視デバイス340に提供されてもよい。
内視鏡ユニット310は、内視鏡からのビデオ像を受信するためのプロセッサと、他の電子回路網とを含む。内視鏡ユニット310は、1つ以上のビデオ出力(例えば、ポートまたはコネクタ)、すなわち、合成ビデオ、ビデオグラフィックスアレイ(VGA)、バヨネット・ニール・コンセルマン(BNC)、デジタルビデオインターフェース(DVI)、DVI-D(シングルまたはデュアルリンク)、シリアデジタルインターフェース(SDI)、HD-SDI、デュアルリンクHD-SDI、3G-SDI、6G-SDI、12G-SDI、高精細度マルチメディアインターフェース(HDMI(登録商標))、ミニHDMI、マイクロHDMI、DisplayPort、ビデオおよびオーディオのためのデジタルインターフェース(DiiVA)、HDBaseT、CoaxPress、および/またはモバイル高精細リンク(MHL)を含んでもよい。一実施形態では、内視鏡ユニットのビデオ出力が、ビデオ捕捉カード320への入力に配線されるケーブルを介して直接接続される。
システム330は、ビデオ捕捉カード320を使用し、取得されたビデオデータをエンコードされたビデオフレームにエンコードしてもよい。例示的な好適な捕捉カードは、ビデオ入力信号の受信および特定の色空間フォーマットのエンコードされたビデオフレームへのビデオ入力信号の転換を可能にする。
図4は、図3に説明されるコンピュータシステムを使用した内視鏡検査手技の文脈における、ビデオデータ内のオブジェクトを分類および識別するためのプロセスフローを図示する。内視鏡検査は、患者の身体の内側を評価または視認するために使用される手技である。例えば、内視鏡検査は、結腸、胃、食道、耳、鼻、喉、心臓、尿路、関節、および腹部の疾患を診断するために使用され得る。内視鏡検査手技の間、医師は、内視鏡を患者の身体の中に挿入し、患者の身体のビデオ像を取得する。
内視鏡410が、内視鏡410に取り付けられるデジタルカメラを使用して、ビデオ像を取得する(ブロック415)。内視鏡410は、典型的には、照明源と、内視鏡410のプローブ端の近傍に取り付けられる、デジタルビデオカメラとを含む。内視鏡410は、内視鏡410の動作を制御し、内視鏡410カメラによって取得されたビデオ像を処理する、メイン内視鏡ユニット420に接続される。内視鏡ユニット420は、検査する医師が、内視鏡検査手技の間に患者の身体の内側を視認し得るように、ビデオ像を1つ以上のビデオディスプレイに出力する(ブロック425)。内視鏡410の別の実施例は、内視鏡ユニット420に結合される可撓性光ファイバケーブルの束を含む、光ファイバ内視鏡(ファイバスコープとも称される)である。光ファイバケーブルのいくつかが、光源を、内視鏡ユニット420から光ファイバケーブルの検査端に透過し、患者の体腔を照明するために使用される。他の光ファイバケーブルは、光ファイバケーブルの検査端において、患者の体腔の像を捕捉するためのレンズを含む。像は、動作を記録するために光ファイバケーブルを介して受信ビデオカメラに返信される。
内視鏡ユニット420のビデオ出力信号が、コンピュータシステム430のビデオ捕捉カード440によって受信される。例えば、ビデオ捕捉カード440は、SDIコネクタを用いて内視鏡ユニット420からビデオ出力信号を受信する(例えば、捕捉する)(ブロック445)。ビデオ捕捉カード440は、受信されたビデオ出力信号を複数のエンコードされたビデオフレームに転換する。種々の実施形態では、受信された出力信号が、NV12、I420、YV12、YUY2、YUYV、UYVY、UVYU、V308、IYU2、V408、RGB24、RGB32、V410、Y410、またはY42T等の種々の色空間フォーマットにエンコードされてもよい。
複数のエンコードされたビデオフレームが、ビデオ捕捉カード440のメモリキャッシュの中に記憶される。一実施形態では、複数のエンコードされたビデオフレームは、秒あたり60フレームのフレームレートに対応するように発生されてもよい。しかしながら、コンピュータシステム430は、秒あたり50~240フレームのビデオフレームレートを発生させる、および/または可変のフレームレートを発生させるように構成されてもよい。
コンピュータシステム430は、ビデオフレーム内のオブジェクトの識別および抽出のためにコンピュータビジョンモジュール460を実行する。一実施形態では、コンピュータビジョンモジュール460は、1つ以上のCPUの第1の群を使用して実装される。種々の実施形態では、コンピュータビジョンモジュール460は、GPUの第1または第2の群、または1つ以上のGPUの第3の群、またはそれらの組み合わせを使用して実装されてもよい。一実施形態では、OpenCVが、これらの機能を実施するために使用される。OpenCVは、オープンソースのリアルタイムコンピュータビジョンおよび機械学習ソフトウェアライブラリである。アプリケーションプログラミングインターフェースを使用して、コンピュータビジョンモジュール460は、ビデオ捕捉カード440のメモリキャッシュから直接、記憶されたビデオフレームデータを取得する(例えば、捕捉する)(ブロック465)。コンピュータビジョンモジュール460は、ビデオ捕捉カード440へのアプリケーションプログラミングインターフェース(API)呼出を通して、記憶されたビデオフレームデータを読み出し、データをRAMに転送することなく、データを直接コンピュータビジョンモジュール460に転送してもよい(ブロック465)。コンピュータビジョンモジュール460は、読出の呼出毎に、ビデオ捕捉カードから1つ以上のビデオフレームを読み出してもよい。
API呼出の一実施形態では、APIは、ビデオ捕捉カード440によって実装される。コンピュータビジョンモジュール460を実装する1つ以上のCPUの第1の群が、ビデオ捕捉カード440によって実装されるAPI機能への呼出を実施する。API機能呼出は、記憶されたビデオフレームデータ等、転送するためのデータの、ビデオ捕捉カード440内のメモリ場所を識別する、ソースアドレスと、データを転送するためのGPUの、メモリ内の場所を示す、アドレスとを含んでもよい(ブロック465)。API呼出に応答して、ビデオ捕捉カード440は、バス、クロスバー、ネットワーク相互接続、またはPCIExpress等の相互接続を通して、データをソース場所から目的地場所に転送する。コンピュータシステム430のCPUは、転送プロセスに関わらない。
コンピュータビジョンモジュール460は、取得されたビデオフレームデータを処理し、ビデオファイルを発生させてもよい。本プロセスは、コンピュータシステム430が、内視鏡検査手技のビデオ像を記憶することを可能にする。例えば、コンピュータビジョンモジュール460は、OpenCV機能である、VideoWriter(const String& filename, int fourcc, double fps, Size frameSize, bool isColor = true)を使用してもよい(変数filenameは、出力ビデオファイルの名称であり、fourccは、フレームを圧縮する使用される、4文字のコードであり、fpsは、生成されるビデオ配信物のフレームレートであり、frameSizeは、ビデオフレームのサイズであり、isColorは、カラーまたはグレースケールフレームを識別するために使用される)。
コンピュータシステム430は、1つ以上のイベントに基づいて、内視鏡ユニットから受信されるビデオ像を記録および記憶し始めてもよい。一実施例では、コンピュータシステム430は、コンピュータシステム430が、具体的なコマンド(記録を始める、または停止するためのコンピュータシステム430への受信されたユーザ入力等)を受信すると、ビデオを記録するステップを始める、または停止する。別の実施例では、コンピュータシステム430は、コンピュータシステム430が、内視鏡ユニットがコンピュータシステム430にビデオデータを伝送し始めたことを決定すると、受信されたビデオ像を記憶し始めてもよい。
加えて、コンピュータシステム430は、コンピュータシステム430が、評価手技の開始を検出すると、内視鏡ユニットから受信されたビデオ像を記録し始めてもよい。コンピュータシステム430は、第1のビデオフレームと第2のビデオフレームを比較し、コントラスト、色相、色、明度、または輝度の変化等の画像特性の1つ以上の変化を検出してもよい。例えば、内視鏡が、患者の体腔に導入されるにつれて、ビデオフレーム内のデジタル画像が、明るい画像からより暗い画像に変化する場合がある。コンピュータシステム430は、手技開始イベントとして明度の変化を検出し、取得されたビデオを記録するステップを開始してもよい。また、コンピュータシステム430は、機械学習ネットワークを使用して、評価手技の開始を検出し、ビデオ像を評価し、手技の開始が始められた可能性が高いときを決定してもよい。逆に、コンピュータシステム430は、コンピュータシステム430が、内視鏡が体腔から除去されたことを検出すると、記録を自動的に停止させてもよい。また、コンピュータシステム430は、ビデオのローリング周期(例えば、30秒のウィンドウ)を記憶し、記録されるビデオ像内にローリング周期ビデオを含めてもよい。
並行して、または内視鏡検査手技が完了された後、ビデオファイルが、コンピュータシステム430によって暗号化され(ブロック435)、セキュアなネットワークを経由してクラウドベースのサーバ(例えば、Amazon Simple Storage Service)480に伝送され、後の読出または分析のために記憶されてもよい(ブロック485)。
フレームデータを取得した(ブロック465)後、コンピュータビジョンモジュール460は、機械学習ネットワークを通した処理のために、ビデオフレームデータをテンソルオブジェクトに転換する(ブロック467)。テンソルオブジェクトは、任意の数の次元のベクトルまたは行列を備える。テンソルオブジェクトは、次元0(スカラー)、次元1(ベクトル)、次元2(2次元行列)、またはより高い数の次元を有し得る。例えば、コンピュータシステム430は、ビデオフレームを処理し、フレーム(例えば、入力画像)をテンソルオブジェクトに転換してもよい。フレームは、最初に、新しいテンソルオブジェクトを生成し、次いで、そのフレームからの全てのピクセルをテンソルにマップすることによって、テンソルに転換される。
一実施形態では、コンピュータシステム430は、TensorFlowモジュール470およびそのオブジェクト検出APIフレームワークを使用し、テンソルオブジェクトに関する推測を実施する。TensorFlowは、機械学習および数値算出のためのオープンソースライブラリである。TensorFlowでは、算出は、種々のタイプのデータを表す、多次元アレイのベクトルまたは行列である、テンソルを伴う。TensorFlowでは、算出は、ステートフルデータフローグラフとしてアプローチされる。TensorFlowオブジェクト検出APIは、オブジェクト検出モデルの構築、訓練、および展開を可能にする、TensorFlowの上に確立される、オープンソースフレームワークである。
コンピュータシステム430は、1つ以上の予め訓練された機械学習ネットワークを使用し、テンソルオブジェクト上で推測プロセスを実施する(ブロック475)。機械学習ネットワークは、設定された画像訓練データからの画像特徴に基づいて、種々のオブジェクトタイプまたは部類を推測するように訓練されてもよい。一実施形態では、機械学習ネットワークは、ポリープの種々の画像を含む、デジタル画像データの訓練セットに基づいて、ポリープを識別するように訓練される。機械学習ネットワークは、ポリープの特徴を学習し、デジタル画像内でのデジタル画像の発生を識別することが可能である。機械学習ネットワークは、内視鏡の本体内の場所を識別すること、ポリープが存在するかどうかを識別すること、ポリープのタイプを識別すること等の異なるタスクのために訓練されてもよい。機械学習ネットワークのうちの1つ以上のものが、並行して起動され、処理帯域幅を拡大し、より迅速に推測を完了してもよい。
TensorFlowモジュール470は、入力画像が特定のタイプのオブジェクトである尤度を示す、結果を生産する(ブロック477)。TensorFlowモジュール470は、検出されたオブジェクトと関連付けられる座標値を出力する。例えば、ポリープが、検出された場合、長方形または正方形を説明するデカルト座標を伴う境界ポリゴン(例えば、境界ボックス)等のグラフィカルインジケーションが、発生されるであろう。座標値は、TensorFlowモジュール470から出力され、Qtフレームワーク450に送信され、境界ポリゴンをオーバーレイとしてグラフィカルにレンダリングするであろう。
コンピュータシステム430は、グラフィカルユーザインターフェースモジュール450を実行し、合成ビデオ出力をユーザインターフェースとして発生させる。合成ビデオ出力は、外部監視デバイス490に表示されてもよい。一実施形態では、コンピュータシステム430は、Qtソフトウェアを実行し、合成ビデオ出力を管理および発生させる。Qtソフトウェアは、グラフィカルユーザインターフェースを開発するためのオープンソースツールキットである。コンピュータシステム430は、Qtフレームワーク450を使用し、2つのウィンドウを表示する。Qtフレームワーク450は、1つ以上のCPUの第1の群、またはコンピュータビジョンモジュール460を起動させるCPUの第1の群と異なる、1つ以上のCPUの第2の群上で起動されてもよい。また、Qtフレームワークは、GPUの第1の群、GPUの第2の群、または1つ以上のGPUの第3の群、またはそれらの組み合わせの上で起動されてもよい。APIを使用して、Qtフレームワーク450は、ビデオ捕捉カード440のメモリキャッシュから直接、記憶されたビデオフレームデータを取得する。転送は、コンピュータシステム430のCPUを伴うことなく、かつビデオフレームデータがコンピュータシステム430のRAM内に記憶されることなく、実施されてもよい。Qtフレームワーク450は、読出の呼出毎に、ビデオ捕捉カードから1つ以上のビデオフレームを読み出してもよい。コンピュータシステム430は、受信されたビデオの複数のエンコードされたビデオフレームを表示するために、1つのウィンドウ(すなわち、第1の表示ウィンドウ)をレンダリングする(ブロック455)。コンピュータシステム430は、オーバーレイウィンドウをレンダリングするために、別のウィンドウ(すなわち、第2の表示ウィンドウ)を使用する(ブロック457)。オーバーレイウィンドウは、機械学習ネットワークモデル介したビデオフレームの処理から発生されたグラフィカル結果を伴う、複数のエンコードされたビデオフレームを表示する。
API呼出の一実施形態では、APIは、ビデオ捕捉カード440によって実装される。Qtフレームワーク450が、ビデオ捕捉カード440によって実装される、API機能への呼出を実施する。API機能呼出は、1つ以上のビデオフレーム等、転送するためのデータの、ビデオ捕捉カード440内のメモリ場所を識別する、ソースアドレスと、データを転送するためのGPUの、メモリ内の場所を示す、アドレスとを含んでもよい。API呼出に応答して、ビデオ捕捉カード440は、バス、クロスバー、ネットワーク相互接続、またはPCI Express等の相互接続を通して、データをソース場所から目的地場所に転送する。
一実施形態では、第1の表示ウィンドウは、複数のエンコードされたビデオフレームを、それらがビデオ捕捉カード440から受信されるにつれて、リアルタイムで提示する。第2の表示ウィンドウは、第2の表示ウィンドウ内に識別されたオブジェクトおよび他の文字およびグラフィカル情報を示す、グラフィカルオーバーレイを提示する。例えば、第1の表示ウィンドウは、患者の結腸の像を描写する、結腸内視鏡検査等の内視鏡検査手技のリアルタイム像を提示してもよい。第1の表示ウィンドウは、内視鏡410によって取得されたビデオを提示する。加えて、第1の表示ウィンドウは、ビデオ内に内視鏡ユニット410によって表示される、他のユーザインターフェース情報を提示してもよい。第2の表示ウィンドウは、第1の表示ウィンドウにわたって、その正面に、またはその上に置かれる、グラフィカルおよび/または文字情報を提示する。第1の表示ウィンドウは、1,080p(1,920×1,080ピクセル)、2K(2,048×1,080ピクセル)、1,440p(2,560×1,440ピクセル)、4Kまたは2,160p(3,840×2,160ピクセル)、および/または8K(7,680×4,320ピクセル)の分解能において表示されてもよい。
図5は、ビデオ監視デバイスの外部環境状態を決定するためにビデオデータを評価するための例示的プロセスのフローチャートを図示する。コンピュータシステム100、330、430は、ビデオフレームの評価に基づいて、付加的な機能またはプロセスを実施してもよい。コンピュータシステム100、330、430は、エンコードされたビデオフレームを受信する(ブロック510)。例えば、内視鏡が、患者の体腔の中に導入されるにつれて、コンピュータシステム100、330、430は、内視鏡ユニットからライブビデオ像を受信し、コンピュータシステム100、330、430は、ビデオデータをエンコードされたビデオフレームに転換する。
コンピュータシステムは、次いで、エンコードされたビデオフレームの画像を評価する(ブロック520)。コンピュータシステム100、330、430は、第1の画像を後続の第2の画像と比較する、および/または特定のビデオフレームの画像特性を要求される画像特性の所定のセットに対して比較してもよい。ビデオフレームを評価することによって、コンピュータシステムは、ビデオ監視デバイスの外部環境状態を決定してもよい(ブロック530)。例えば、結腸内視鏡検査の文脈において、内視鏡の外部環境状態は、コンピュータシステム100、330、430によって、ポリープおよび/または他の異常に関して結腸を検査するために、結腸が十分に空であり、清浄であるかどうかを査定するために評価されてもよい。コンピュータシステム100、300、430は、ビデオフレームの機械学習ネットワーク画像特性(例えば、色相、色、明度、コントラスト、輝度)を介して評価してもよい。一実施形態では、コンピュータシステム100、330、430は、結腸の色を評価し、結腸が結腸内視鏡検査のために準備されているかどうかを決定してもよい。別の実施形態では、機械学習ネットワークが、結腸準備の多数のデジタル画像に基づいて訓練されてもよい。機械学習ネットワークは、1つ以上のビデオフレームを評価することによって、結腸が準備されているかどうかを決定し、良好な結果に関して「1」、または悪い結果に関して「0」等の結果を決定してもよい。機械学習ネットワークに基づいて、システム100、330、430は、結腸準備の品質をバイナリスケールに基づいて決定してもよく、「0」は、最悪であり、「1」は、最も清浄である。結腸準備が、十分な品質ではない場合、システム100、330、430は、第2の表示出力の文字および/またはグラフィカルインジケーションを介して、結腸が手技のために十分に準備されていないことを示してもよい。
決定された外部環境状態に基づいて、コンピュータシステム100、330、430は、1つ以上の機能を実施してもよい(ブロック540)。例えば、コンピュータシステムは、コンピュータシステムが、環境状態がビデオ画像内のオブジェクトを識別するために不適切である(例えば、十分に準備されていない、または清浄ではない)と決定した場合、機械学習ネットワークを介したビデオ画像の他の推測を見合わせてもよい。しかしながら、コンピュータシステムは、外部環境状態が好適であると決定された場合、機械学習ネットワークを介した他の推測を実施してもよい。例えば、コンピュータシステム100、330、430は、結腸が準備された良好度合のインジケーションまたはスコアを発生させてもよい。準備スコアが、所定の閾値を超過する場合、コンピュータシステムは、結腸(すなわち、外部環境)が、機械学習ネットワークを介した他の推測のために好適であると決定してもよい。加えて、コンピュータシステム100、330、430は、外部環境状態が、手技(例えば、結腸内視鏡検査)を実施するために好適であるかそうでないかを示す、メッセージまたは他のユーザ出力を発生させてもよい。
コンピュータシステム100、330、430は、ビデオ監視デバイスの外部環境状態のインジケーションを発生させてもよい(ブロック550)。コンピュータシステム100、330、430は、ビデオ監視デバイスの環境状態のインジケーションを表示してもよい(ブロック560)。例えば、コンピュータシステム100、330、430は、監視デバイスに、外部環境状態を示す、出力を提供してもよい。
ここで図6を参照すると、コンピュータシステム100、330、430の例示的ユーザインターフェース600が、図示される。ユーザインターフェース600は、第1の表示ウィンドウおよび第2の表示ウィンドウの合成ディスプレイを図示する。ユーザインターフェース600は、第1の表示ウィンドウからのビデオを表示するための、ビデオ表示面積610を含む。ビデオディスプレイ610面積は、ユーザインターフェース600の部分面積の一部であってもよい、またはユーザインターフェース600の全体的表示面積を含んでもよい。実施例では、ビデオ表示面積610は、ユーザインターフェース600の部分面積である。ビデオ表示面積は、上記に説明されるように、第1の表示ウィンドウのビデオ620を表示する。
ユーザインターフェース600は、第2の表示ウィンドウのグラフィカル情報を表示するためのグラフィカル情報表示面積を含む。グラフィカル情報表示面積の一部が、ビデオ表示面積610にわたって表示される。例示的ユーザインターフェース600では、検出されたオブジェクト630のグラフィカルインジケーション(例えば、長方形境界ポリゴン)が、ビデオ表示面積610内のビデオ620にわたって表示される。
グラフィカル情報表示面積はまた、ユーザインターフェースの他の部分面積を含んでもよい。グラフィカル情報表示面積は、ビデオフレーム620内で識別されたオブジェクト630に対応する情報を表示する、情報表示面積602、604、606、608を含んでもよい。例えば、情報表示面積602は、検出されたオブジェクト630のタイプまたは部類についての情報を表示してもよい。情報表示面積602は、検出されたオブジェクト630がポリープであることを示してもよい。
加えて、複数のオブジェクトが、検出され、ビデオ表示面積610内に表示される場合、情報表示面積602、604、606、608は、検出されたオブジェクトのグラフィカルインジケーション上の標識と一致する、英数字文字等の識別子で標識されてもよい。例えば、コンピュータシステム100、330、430は、上記で議論されるような機械学習ネットワークを使用して、ビデオフレーム内に4つのオブジェクトを検出している。本場合では、グラフィカル情報表示面積は、オブジェクトの4つのグラフィカルインジケーション(例えば、4つの長方形境界ポリゴン)を含むであろう。4つのグラフィカルインジケーションはそれぞれ、1、2、3、4と標識されてもよい、および/または色分けされてもよい。情報表示面積602、604、606、608はそれぞれ、個別の検出されたオブジェクトに対応する情報を含むであろう。また、異なるオブジェクトタイプが、機械学習ネットワークを介して検出されている場合もある。本場合では、同一のタイプのオブジェクトのグラフィカルインジケーションが、同一の色で表示されてもよく、他のオブジェクトタイプが、異なる色において表示されてもよい。
図7は、機械に、本明細書に議論される方法論のうちのいずれか1つ以上のものを実施させるための命令のセットが実行され得る、コンピュータシステムの例示的機械を図示する。代替実装では、機械は、LAN、イントラネット、エクストラネット、および/またはインターネット内の他の機械に接続(例えば、ネットワーク化)されてもよい。機械は、ピアツーピア(または分散型)ネットワーク環境内のピア機械として、またはクラウドコンピューティングインフラストラクチャまたは環境内のサーバまたはクライアント機械として、クライアントサーバネットワーク環境内のサーバまたはクライアント機械の能力内で動作してもよい。
機械は、その機械によってとられるべきアクションを規定する、(順次または別様の)命令のセットを実行することが可能である、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、ウェブ装置、サーバ、ネットワークルータ、スイッチ、またはブリッジ、または任意の機械であってもよい。さらに、単一の機械が、図示されているが、用語「機械」はまた、本明細書に議論される方法論のうちのいずれか1つ以上のものを実施するための命令のセット(または複数のセット)を個々に、または一緒に実行する、任意の機械の集合を含むと捉えるものとする。
例示的コンピュータシステム700は、バス730を介して相互と通信する、処理デバイス702と、メインメモリ704(例えば、読取専用メモリ(ROM)、フラッシュメモリ、同期DRAM(SDRAM)またはRambus DRAM(RDRAM)等の動的ランダムアクセスメモリ(DRAM)等)と、静的メモリ706(例えば、フラッシュメモリ、静的ランダムアクセスメモリ(SRAM)等)と、データ記憶デバイス718とを含む。
処理デバイス702は、マイクロプロセッサ、中央処理ユニット、または同等物等の1つ以上の汎用目的処理デバイスを表す。より具体的には、処理デバイスは、複合命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、または他の命令セットを実装するプロセッサ、または命令セットの組み合わせを実装するプロセッサであってもよい。処理デバイス702はまた、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、ネットワークプロセッサ、または同等物等の1つ以上の特殊目的処理デバイスであってもよい。処理デバイス702は、本明細書に議論される動作およびステップを実施するための命令726を実行するように構成される。一実施形態では、コンピュータシステム700は、マザーボードのPCIeレーンの使用を最適化するためのPLXチップを伴う、マザーボードを使用してもよい。
コンピュータシステム700はさらに、ネットワーク720を経由して通信するためのネットワークインターフェースデバイス708を含んでもよい。コンピュータシステム700はまた、ビデオディスプレイユニット710(例えば、液晶ディスプレイ(LCD)または陰極線管(CRT))と、英数字入力デバイス712(例えば、キーボード)と、カーソル制御デバイス714(例えば、マウス)と、グラフィック処理ユニット722と、信号発生デバイス716(例えば、スピーカ)と、ビデオ処理ユニット728と、オーディオ処理ユニット732とを含んでもよい。
データ記憶デバイス718は、その上で命令の記憶された1つ以上のセットまたはソフトウェア726が、本明細書に説明される方法論または機能のうちのいずれか1つ以上のものを具現化する、機械可読記憶媒体724(コンピュータ可読媒体としても公知である)を含んでもよい。命令726はまた、機械可読記憶媒体も成す、コンピュータシステム700、メインメモリ704、および処理デバイス702による、その実行の間に、完全または少なくとも部分的に、メインメモリ704内および/または処理デバイス702内に常駐してもよい。
1つの実装では、命令726は、本明細書における開示を実施するためのデバイスのコンポーネントに対応する機能性を実装するための命令を含む。機械可読記憶媒体724が、単一の媒体であるように例示的実装に示されているが、用語「機械可読記憶媒体」は、命令の1つ以上のセットを記憶する、単一の媒体または複数の媒体(例えば、一元型または分散型データベース、および/または関連付けられるキャッシュおよびサーバ)を含むと捉えられるべきである。用語「機械可読記憶媒体」はまた、機械による実行のための、かつ機械に本開示の方法論のうちのいずれか1つ以上のものを実施させる、命令のセットを記憶またはエンコードすることが可能である、任意の媒体を含むとも捉えられるべきである。用語「機械可読記憶媒体」は、故に、限定ではないが、ソリッドステートメモリ、光学媒体、および磁気媒体を含むと捉えられるべきである。
前述の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに関する動作のアルゴリズムおよび象徴的表現の観点から提示されている。これらのアルゴリズムの説明および表現は、データ処理分野の当業者によって、その作業の内容を他の当業者に最も効果的に伝達するために使用される方法である。アルゴリズムは、ここでは、概して、所望の結果につながる動作の自己矛盾のないシーケンスであると考えられる。動作は、物理量の物理的操作を要求するものである。通常、必ずしもというわけではないが、これらの量は、記憶、組み合わせ、比較、および別様に操作されることが可能である、電気または磁気信号の形態をとる。時として、主に、一般的な使用の理由のために、これらの信号をビット、値、要素、記号、文字、用語、数値、または同等物として称することが、時として、便宜的であると証明されている。
一般に、用語「エンジン」および「モジュール」は、本明細書で使用されるように、ハードウェアまたはファームウェア内で具現化される論理、または、可能性として、例えば、Java(登録商標)、Lua、C、またはC++等のプログラミング言語において記述される、入口点と、出口点とを有する、ソフトウェア命令の集合を指す。ソフトウェアモジュールは、動的リンクライブラリ内にインストールされる実行可能なプログラムにコンパイルおよびリンクされてもよい、または、例えば、BASIC、Perl、またはPython等のインタープリタ型プログラミング言語において記述されてもよい。ソフトウェアモジュールが、他のモジュールから、またはそれら自体から呼出可能であり得る、および/または検出されるイベントまたは割込に応答して起動され得ることを理解されたい。コンピューティングデバイス上での実行のために構成されるソフトウェアモジュールが、コンパクトディスク、デジタルビデオディスク、フラッシュドライブ、または任意の他の有形媒体等の1つ以上のコンピュータ可読媒体上に提供されてもよい。そのようなソフトウェアコードは、部分的または完全に、実行コンピューティングデバイスのメモリデバイス上に記憶されてもよい。ソフトウェア命令が、EPROM等のファームウェア内に組み込まれてもよい。ハードウェアモジュールが、ゲートおよびフリップフロップ等の接続される論理ユニットから成り得る、および/またはプログラマブルゲートアレイまたはプロセッサ等のプログラマブルユニットから成り得ることも、さらに理解されたい。本明細書に説明されるモジュールは、好ましくは、ソフトウェアモジュールとして実装されるが、ハードウェアまたはファームウェアにおいて表されてもよい。概して、本明細書に説明されるモジュールは、それらの物理的編成またはストレージにかかわらず、他のモジュールと組み合わせられる、またはサブモジュールに分割され得る、論理モジュールを指す。
しかしながら、これらおよび類似の用語の全てが、適切な物理量と関連付けられるべきであり、これらの量に適用される、便宜的な標識にすぎないことを念頭に置かれたい。上記の議論から明白であるものとして別様に具体的に記載されない限り、説明の全体を通した、「~を識別する」または「~を決定する」または「~を実行する」または「~を実施する」または「~を収集する」または「~を生成する」または「~を送信する」または同等物等の用語を利用する議論が、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表されるデータを、コンピュータシステムメモリまたはレジスタまたは他のそのような情報記憶デバイス内の物理量として同様に表される他のデータに操作および変換する、コンピュータシステムまたは類似する電子コンピューティングデバイスのアクションおよびプロセスを指すことを理解されたい。
本開示はまた、本明細書の動作を実施するための装置に関する。本装置は、意図される目的のために特別に構築されてもよい、またはコンピュータ内に記憶されるコンピュータプログラムによって選択的にアクティブ化または再構成される、汎用目的コンピュータを備えてもよい。そのようなコンピュータプログラムは、限定ではないが、フロッピーディスク、光学ディスク、CD-ROM、光磁気ディスク、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気または光学カード、または電子命令を記憶するために好適な任意のタイプの媒体等の、コンピュータ可読記憶媒体内に記憶されてもよく、それぞれが、コンピュータシステムバスに結合されてもよい。
種々の汎用目的システムが、本明細書の教示によるプログラムと併用され得る、またはより特殊な装置を構築し、方法を実施することが、便宜的であることを証明し得る。種々のこれらのシステムのための構造が、上記の説明において記載されるように現れるであろう。加えて、本開示は、いかなる特定のプログラミング言語も参照して説明されていない。種々のプログラミング言語が、本明細書に説明されるように、本開示の教示を実装するために使用され得ることを理解されたい。
本開示は、本開示によるプロセスを実施するためのコンピュータシステム(または他の電子デバイス)をプログラムするために使用され得る、その上に命令を記憶している機械可読媒体を含み得る、コンピュータプログラム製品またはソフトウェアとして提供され得る。機械可読媒体は、機械(例えば、コンピュータ)によって読取可能な形態にある情報を記憶するための任意の機構を含む。例えば、機械可読(例えば、コンピュータ可読)媒体は、読取専用メモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス等の機械(例えば、コンピュータ)可読記憶媒体を含む。
前述の開示では、本開示の実装は、それらの具体的な例示的実装を参照して説明されている。種々の修正が、以下の請求項において記載されているように、本開示の実装のより広義の精神および範囲から逸脱することなく、それに成され得ることが、明白となるであろう。本開示および図面は、故に、制限的な意味ではなく、例証的な意味で見なされるべきである。

Claims (21)

  1. システムであって、前記システムは、1つ以上のプロセッサと、非一過性コンピュータ可読媒体とを備え、前記非一過性コンピュータ可読媒体は、命令の1つ以上のシーケンスを含み、前記命令の1つ以上のシーケンスは、前記1つ以上のプロセッサによって実行されると、前記システムに、
    ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
    前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
    前記複数のエンコードされたビデオフレームからの像を描写する第1の表示出力をレンダリングすることと、
    機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
    前記複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定することと、
    前記複数のエンコードされたビデオフレームからの前記決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する第2の表示出力をレンダリングすることと、
    合成表示出力を発生させることであって、前記合成表示出力は、前記第2の表示出力のグラフィカル情報でオーバーレイされる前記第1の表示出力の像を含む、ことと
    を含む動作を実施させ
    前記第2の表示出力のグラフィカル情報は、前記決定された1つ以上のオブジェクトに対応する文字情報を含み、前記文字情報は、前記第1の表示出力の非ビデオ表示面積にわたって配置される、システム。
  2. 前記第1の表示出力は、秒あたり50~240フレームのフレームレートにおいて像を描写する、請求項1に記載のシステム。
  3. 前記第2の表示出力は、前記第1の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、請求項1に記載のシステム。
  4. 前記1つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記決定された1つ以上のオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、請求項1に記載のシステム。
  5. 前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
    前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
    をさらに含む、請求項1に記載のシステム。
  6. 前記複数のエンコードされたビデオフレームは、NV12と、I420と、YV12と、YUY2と、YUYVと、UYVYと、UVYUと、V308と、IYU2と、V408と、RGB24と、RGB32と、V410と、Y410と、Y42Tとから成る群から選択される色空間フォーマットにエンコードされる、請求項1に記載のシステム。
  7. 前記第2の表示出力のグラフィカル情報は、前記第1の表示出力のビデオ表示面積にわたって配置される前記1つ以上のオブジェクトのグラフィカルインジケーションを含む、請求項1に記載のシステム。
  8. 1つ以上のプロセッサから成るシステムによって実装される方法であって、前記方法は、
    ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
    前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
    前記複数のエンコードされたビデオフレームからの像を描写する第1の表示出力をレンダリングすることと、
    機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
    前記複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定することと、
    前記複数のエンコードされたビデオフレームからの前記決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する第2の表示出力をレンダリングすることと、
    合成表示出力を発生させることであって、前記合成表示出力は、前記第2の表示出力のグラフィカル情報でオーバーレイされる前記第1の表示出力の像を含む、ことと
    を含み、
    前記第2の表示出力のグラフィカル情報は、前記決定された1つ以上のオブジェクトに対応する文字情報を含み、前記文字情報は、前記第1の表示出力の非ビデオ表示面積にわたって配置される、方法。
  9. 前記第1の表示出力は、秒あたり50~240フレームのフレームレートにおいて像を描写する、請求項8に記載の方法。
  10. 前記第2の表示出力は、前記第1の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、請求項8に記載の方法。
  11. 前記1つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記決定された1つ以上のオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、請求項8に記載の方法。
  12. 前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
    前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
    をさらに含む、請求項8に記載の方法。
  13. 前記複数のエンコードされたビデオフレームは、NV12と、I420と、YV12と、YUY2と、YUYVと、UYVYと、UVYUと、V308と、IYU2と、V408と、RGB24と、RGB32と、V410と、Y410と、Y42Tとから成る群から選択される色空間フォーマットにエンコードされる、請求項8に記載の方法。
  14. 前記第2の表示出力のグラフィカル情報は、前記第1の表示出力のビデオ表示面積にわたって配置される前記1つ以上のオブジェクトのグラフィカルインジケーションを含む、請求項8に記載の方法。
  15. 非一過性コンピュータ記憶媒体であって、前記非一過性コンピュータ記憶媒体は、命令を備え、前記命令は、1つ以上のプロセッサを備えるシステムによって実行されると、前記1つ以上のプロセッサに、
    ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
    前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
    前記複数のエンコードされたビデオフレームからの像を描写する第1の表示出力をレンダリングすることと、
    機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
    前記複数のエンコードされたビデオフレーム内での1つ以上のオブジェクトの発生を決定することと、
    前記複数のエンコードされたビデオフレームからの前記決定された1つ以上のオブジェクトに対応するグラフィカル情報を描写する第2の表示出力をレンダリングすることと、
    合成表示出力を発生させることであって、前記合成表示出力は、前記第2の表示出力のグラフィカル情報でオーバーレイされる前記第1の表示出力の像を含む、ことと
    を含む動作を実施させ
    前記第2の表示出力のグラフィカル情報は、前記決定された1つ以上のオブジェクトに対応する文字情報を含み、前記文字情報は、前記第1の表示出力の非ビデオ表示面積にわたって配置される、非一過性コンピュータ記憶媒体。
  16. 前記第1の表示出力は、秒あたり50~240フレームのフレームレートにおいて像を描写する、請求項15に記載の非一過性コンピュータ記憶媒体。
  17. 前記第2の表示出力は、前記第1の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、請求項15に記載の非一過性コンピュータ記憶媒体。
  18. 前記1つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記決定された1つ以上のオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、請求項15に記載の非一過性コンピュータ記憶媒体。
  19. 前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
    前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
    をさらに含む、請求項15に記載の非一過性コンピュータ記憶媒体。
  20. 前記複数のエンコードされたビデオフレームは、NV12と、I420と、YV12と、YUY2と、YUYVと、UYVYと、UVYUと、V308と、IYU2と、V408と、RGB24と、RGB32と、V410と、Y410と、Y42Tとから成る群から選択される色空間フォーマットにエンコードされる、請求項15に記載の非一過性コンピュータ記憶媒体。
  21. 前記第2の表示出力のグラフィカル情報は、前記第1の表示出力のビデオ表示面積にわたって配置される前記1つ以上のオブジェクトのグラフィカルインジケーションを含む、請求項15に記載の非一過性コンピュータ記憶媒体。
JP2022502859A 2019-07-16 2019-07-16 機械学習システムのリアルタイム展開 Active JP7420916B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/041945 WO2021010985A1 (en) 2019-07-16 2019-07-16 Real-time deployment of machine learning systems

Publications (2)

Publication Number Publication Date
JP2022541897A JP2022541897A (ja) 2022-09-28
JP7420916B2 true JP7420916B2 (ja) 2024-01-23

Family

ID=74209864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502859A Active JP7420916B2 (ja) 2019-07-16 2019-07-16 機械学習システムのリアルタイム展開

Country Status (3)

Country Link
EP (1) EP3998931A4 (ja)
JP (1) JP7420916B2 (ja)
WO (1) WO2021010985A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423318B2 (en) 2019-07-16 2022-08-23 DOCBOT, Inc. System and methods for aggregating features in video frames to improve accuracy of AI detection algorithms
US10671934B1 (en) 2019-07-16 2020-06-02 DOCBOT, Inc. Real-time deployment of machine learning systems
US11100373B1 (en) 2020-11-02 2021-08-24 DOCBOT, Inc. Autonomous and continuously self-improving learning system
KR102640314B1 (ko) * 2021-07-12 2024-02-23 (주)휴톰 인공지능 수술 시스템 및 그것의 제어방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015509404A (ja) 2012-02-23 2015-03-30 スミス アンド ネフュー インコーポレーテッド ビデオ内視鏡システム
WO2017073361A1 (ja) 2015-10-30 2017-05-04 ソニー株式会社 情報処理装置、情報処理方法、及び、内視鏡システム
JP2017513664A (ja) 2014-04-05 2017-06-01 サージセンス コーポレイション 組織酸素化のマッピングのための装置、システム、および方法
WO2018122895A1 (ja) 2016-12-26 2018-07-05 三菱電機株式会社 映像処理装置、映像処理方法、映像処理プログラム、及び映像監視システム
JP2018180879A (ja) 2017-04-12 2018-11-15 株式会社日立製作所 物体認識装置、物体認識システム、及び物体認識方法
WO2019054045A1 (ja) 2017-09-15 2019-03-21 富士フイルム株式会社 医療画像処理装置、医療画像処理方法及び医療画像処理プログラム
WO2019087790A1 (ja) 2017-10-31 2019-05-09 富士フイルム株式会社 検査支援装置、内視鏡装置、検査支援方法、及び検査支援プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613335B2 (en) * 2003-02-12 2009-11-03 The University Of Iowa Research Foundation Methods and devices useful for analyzing color medical images
US20140031677A1 (en) * 2012-01-20 2014-01-30 Physical Sciences, Inc. Apparatus and Method for Aiding Needle Biopsies
WO2014160510A2 (en) * 2013-03-13 2014-10-02 Massachusetts Institute Of Technology Photometric stereo endoscopy
US9354778B2 (en) * 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US10169535B2 (en) * 2015-01-16 2019-01-01 The University Of Maryland, Baltimore County Annotation of endoscopic video using gesture and voice commands
KR101809673B1 (ko) * 2016-07-04 2018-01-18 주식회사 팝스라인 단말 및 그의 제어 방법
US20190066304A1 (en) * 2017-08-31 2019-02-28 Microsoft Technology Licensing, Llc Real-time object segmentation in live camera mode

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015509404A (ja) 2012-02-23 2015-03-30 スミス アンド ネフュー インコーポレーテッド ビデオ内視鏡システム
JP2017513664A (ja) 2014-04-05 2017-06-01 サージセンス コーポレイション 組織酸素化のマッピングのための装置、システム、および方法
WO2017073361A1 (ja) 2015-10-30 2017-05-04 ソニー株式会社 情報処理装置、情報処理方法、及び、内視鏡システム
WO2018122895A1 (ja) 2016-12-26 2018-07-05 三菱電機株式会社 映像処理装置、映像処理方法、映像処理プログラム、及び映像監視システム
JP2018180879A (ja) 2017-04-12 2018-11-15 株式会社日立製作所 物体認識装置、物体認識システム、及び物体認識方法
WO2019054045A1 (ja) 2017-09-15 2019-03-21 富士フイルム株式会社 医療画像処理装置、医療画像処理方法及び医療画像処理プログラム
WO2019087790A1 (ja) 2017-10-31 2019-05-09 富士フイルム株式会社 検査支援装置、内視鏡装置、検査支援方法、及び検査支援プログラム

Also Published As

Publication number Publication date
JP2022541897A (ja) 2022-09-28
WO2021010985A1 (en) 2021-01-21
EP3998931A1 (en) 2022-05-25
EP3998931A4 (en) 2023-04-19

Similar Documents

Publication Publication Date Title
US11694114B2 (en) Real-time deployment of machine learning systems
JP7420916B2 (ja) 機械学習システムのリアルタイム展開
US11212465B2 (en) Endoscopy video feature enhancement platform
AU2019431299B2 (en) AI systems for detecting and sizing lesions
KR20190103937A (ko) 뉴럴 네트워크를 이용하여 캡슐 내시경 영상으로부터 병변 판독 방법 및 장치
JP2022505205A (ja) 腸の病理学のための画像スコアリング
JP2015146970A (ja) 内視鏡画像診断支援システム
US20180365830A1 (en) Image processing apparatus, image processing method, and computer readable recording medium
CN111784668A (zh) 基于感知哈希算法的消化内镜检查影像自动冻结的方法
CN111784686A (zh) 一种内窥镜出血区域的动态智能检测方法、***及可读存储介质
EP4036867A2 (en) System and method for classifying dermatological images using machine learning
KR20220078495A (ko) 캡슐 내시경 영상 기반 소장 병변 판독 방법, 장치 및 프로그램
JPWO2020054604A1 (ja) 情報処理装置、制御方法、及びプログラム
CN110772210B (zh) 一种诊断交互***及方法
JPWO2020071086A1 (ja) 情報処理装置、制御方法、及びプログラム
Phillips et al. Video capsule endoscopy: pushing the boundaries with software technology
US11120554B2 (en) Image diagnosis apparatus, image diagnosis method, and program
WO2022177069A1 (ko) 라벨링 방법 및 이를 위한 컴퓨팅 장치
CN114332844B (zh) 医学图像的智能分类应用方法、装置、设备和存储介质
US9854958B1 (en) System and method for automatic processing of images from an autonomous endoscopic capsule
CN112766066A (zh) 一种动态视频流和静态图像处理显示方法、***
Khan et al. Voting neural network (vnn) for endoscopic image segmentation
WO2022119364A1 (ko) 캡슐 내시경 영상 기반 소장 병변 판독 방법, 장치 및 프로그램
US11288800B1 (en) Attribution methodologies for neural networks designed for computer-aided diagnostic processes
CN117528131B (zh) 一种医学影像的ai一体化显示***及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240111

R150 Certificate of patent or registration of utility model

Ref document number: 7420916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150