JP7420916B2

JP7420916B2 - 機械学習システムのリアルタイム展開

Info

Publication number: JP7420916B2
Application number: JP2022502859A
Authority: JP
Inventors: アンドリューニン，; タイラーダオ，; モハマドフィダーリ，
Original assignee: サティスファイヘルスインコーポレイテッド
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2024-01-23
Anticipated expiration: 2039-07-16
Also published as: JP2022541897A; WO2021010985A1; EP3998931A1; EP3998931A4

Description

コンピュータビジョンおよび機械学習ネットワークが、デジタル画像およびビデオの両方の中のオブジェクトを分類および識別するために使用される。オブジェクト分類では、機械学習ネットワークは、特定のタイプのオブジェクトを分類するために、訓練データのセットを使用して訓練される。オブジェクト識別では、機械学習ネットワークが、画像内に存在し得る、１つ以上のオブジェクトタイプの具体的なインスタンスを認識するために使用される。しかしながら、現代の技術を用いると、リアルタイムビデオデータ内のオブジェクトタイプを評価および推測するステップは、多くの場合、グラフィカル処理ユニット（ＧＰＵ）および中央処理ユニット（ＣＰＵ）を集約的に使用する。ビデオデータのリアルタイムオブジェクト推測の集約的処理性質に起因して、ビデオから画像を推測するためのシステムの先行技術実施形態では、有意な遅延が、オリジナルビデオデータの像および検出されたオブジェクトのグラフィカルインジケーションを描写する、ビデオ出力の受信、処理、およびレンダリングにおいて生じる。本処理の非効率性は、有意なフレームジッタ、および秒あたり５０フレームを優に下回る、表示フレームレートの降下につながる。医療手技のリアルタイムビデオ監視等のある用途は、ビデオデータ内のオブジェクトのリアルタイムの推測および検出に加えて、監視される手技の高い表示フレームレート出力を要求する。

本明細書に説明されるものは、リアルタイムビデオデータ内のオブジェクトを分類および識別するための例示的システムである。本システムは、出力データを表示する、第１のウィンドウと、第２のウィンドウとを提供する。第１のウィンドウは、少なくとも秒あたり５０フレームのリアルタイムフレームレートにおいて、受信されたビデオ入力データを表示する。第２のウィンドウは、機械学習ネットワークを使用した推測プロセスを介して、ビデオ入力データ内で検出されたオブジェクトに対応する、グラフィカルインジケーションおよび／または文字情報を表示する。一実施形態では、第２のウィンドウは、第１のウィンドウのフレームレート未満またはそれに等しい、フレームレートにおいて、グラフィカルインジケーションおよび／または文字情報を表示する。第２のウィンドウは、第１の表示ウィンドウにオーバーレイする。第１のウィンドウのレンダリングおよびオブジェクトの推測および第２のウィンドウ内でのグラフィカルインジケーションの後続の表示が、並行またはマルチスレッドプロセスにおいて実施されてもよい。並行処理は、本システムが、受信されたビデオ入力データを、少なくとも秒あたり５０フレームのリアルタイムフレームレートにおいて表示すること、また、グラフィカルインジケーションを、第１のウィンドウのフレームレートより低い、またはそれに等しくあり得る、フレームレートにおいて第２のウィンドウ内に表示することを可能にする。

一般に、本明細書に説明される主題の１つの革新的側面は、システム、コンピュータ可読媒体、およびビデオ画像捕捉デバイスからビデオデータを受信するための動作を含む、方法において具現化されることができる。受信されたビデオデータは、複数のビデオフレームに転換される。これらのビデオフレームは、下記に解説されるもの等、当業者によって理解されるであろうように、処理のために好適な特定の色空間フォーマットにエンコードされる。本システムは、複数のエンコードされたビデオフレームからの像を描写する、第１の表示出力をレンダリングする。本システムは、ビデオフレーム内での１つ以上のオブジェクトの発生を決定するために、機械学習ネットワークを使用して、ビデオフレームに関する推測を実施する。本システムは、複数のエンコードされたビデオフレームからの決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する、第２の表示出力をレンダリングする。本システムは、次いで、第２の表示出力のグラフィカル情報でオーバーレイされる第１の表示出力の像を含む、合成表示出力を発生させる。

本開示の可用性のさらなる領域が、詳細な説明、請求項、および図面から明白になるであろう。詳細な説明および具体的な実施例は、例証のためのものにすぎないことを意図し、本開示の範囲を限定することを意図していない。
本明細書は、例えば、以下の項目も提供する。
（項目１）
システムであって、前記システムは、１つ以上のプロセッサと、非一過性コンピュータ可読媒体とを備え、前記非一過性コンピュータ可読媒体は、命令の１つ以上のシーケンスを含み、前記命令の１つ以上のシーケンスは、前記１つ以上のプロセッサによって実行されると、前記システムに、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第１の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する第２の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第２の表示出力のグラフィカル情報でオーバーレイされる前記第１の表示出力の像を含む、ことと
を含む動作を実施させる、システム。
（項目２）
前記第１の表示出力は、秒あたり５０～２４０フレームのフレームレートにおいて像を描写する、項目１に記載のシステム。
（項目３）
前記第２の表示出力は、前記第１の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、項目１に記載のシステム。
（項目４）
前記１つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の識別されたオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、項目１に記載のシステム。
（項目５）
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、項目１に記載のシステム。
（項目６）
前記複数のエンコードされたビデオフレームは、ＮＶ１２と、Ｉ４２０と、ＹＶ１２と、ＹＵＹ２と、ＹＵＹＶと、ＵＹＶＹと、ＵＶＹＵと、Ｖ３０８と、ＩＹＵ２と、Ｖ４０８と、ＲＧＢ２４と、ＲＧＢ３２と、Ｖ４１０と、Ｙ４１０と、Ｙ４２Ｔとから成る群から選択される色空間フォーマットにエンコードされる、項目１に記載のシステム。
（項目７）
前記第２の表示出力のグラフィカル情報は、前記第１の表示出力のビデオ表示面積にわたって配置される前記１つ以上のオブジェクトのグラフィカルインジケーションと、前記第１の表示出力の非ビデオ表示面積にわたって配置される前記１つ以上のオブジェクトに対応する文字情報とを含む、項目１に記載のシステム。
（項目８）
１つ以上のプロセッサから成るシステムによって実装される方法であって、前記方法は、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第１の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する第２の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第２の表示出力のグラフィカル情報でオーバーレイされる前記第１の表示出力の像を含む、ことと
を含む、方法。
（項目９）
前記第１の表示出力は、秒あたり５０～２４０フレームのフレームレートにおいて像を描写する、項目８に記載の方法。
（項目１０）
前記第２の表示出力は、前記第１の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、項目８に記載の方法。
（項目１１）
前記１つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記識別されたオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、項目８に記載の方法。
（項目１２）
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、項目８に記載の方法。
（項目１３）
前記複数のエンコードされたビデオフレームは、ＮＶ１２と、Ｉ４２０と、ＹＶ１２と、ＹＵＹ２と、ＹＵＹＶと、ＵＹＶＹと、ＵＶＹＵと、Ｖ３０８と、ＩＹＵ２と、Ｖ４０８と、ＲＧＢ２４と、ＲＧＢ３２と、Ｖ４１０と、Ｙ４１０と、Ｙ４２Ｔとから成る群から選択される色空間フォーマットにエンコードされる、項目８に記載の方法。
（項目１４）
前記第２の表示出力のグラフィカル情報は、前記第１の表示出力のビデオ表示面積にわたって配置される前記１つ以上のオブジェクトのグラフィカルインジケーションと、前記第１の表示出力の非ビデオ表示面積にわたって配置される前記１つ以上のオブジェクトに対応する文字情報とを含む、項目８に記載の方法。
（項目１５）
非一過性コンピュータ記憶媒体であって、前記非一過性コンピュータ記憶媒体は、命令を備え、前記命令は、１つ以上のプロセッサを備えるシステムによって実行されると、前記１つ以上のプロセッサに、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第１の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する第２の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第２の表示出力のグラフィカル情報でオーバーレイされる前記第１の表示出力の像を含む、ことと
を含む動作を実施させる、非一過性コンピュータ記憶媒体。
（項目１６）
前記第１の表示出力は、秒あたり５０～２４０フレームのフレームレートにおいて像を描写する、項目１５に記載の非一過性コンピュータ記憶媒体。
（項目１７）
前記第２の表示出力は、前記第１の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、項目１５に記載の非一過性コンピュータ記憶媒体。
（項目１８）
前記１つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記識別されたオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、項目１５に記載の非一過性コンピュータ記憶媒体。
（項目１９）
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、項目１５に記載の非一過性コンピュータ記憶媒体。
（項目２０）
前記複数のエンコードされたビデオフレームは、ＮＶ１２と、Ｉ４２０と、ＹＶ１２と、ＹＵＹ２と、ＹＵＹＶと、ＵＹＶＹと、ＵＶＹＵと、Ｖ３０８と、ＩＹＵ２と、Ｖ４０８と、ＲＧＢ２４と、ＲＧＢ３２と、Ｖ４１０と、Ｙ４１０と、Ｙ４２Ｔとから成る群から選択される色空間フォーマットにエンコードされる、項目１５に記載の非一過性コンピュータ記憶媒体。
（項目２１）
前記第２の表示出力のグラフィカル情報は、前記第１の表示出力のビデオ表示面積にわたって配置される前記１つ以上のオブジェクトのグラフィカルインジケーションと、前記第１の表示出力の非ビデオ表示面積にわたって配置される前記１つ以上のオブジェクトに対応する文字情報とを含む、項目１５に記載の非一過性コンピュータ記憶媒体。

本開示は、詳細な説明および図面からより深く理解されるであろう。

図１は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムのブロック図を図示する。

図２は、ビデオデータ内のオブジェクトの分類および識別の例示的プロセスを図示する。

図３は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムの高レベルブロック図を図示する。

図４は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムの低レベルブロック図を図示する。

図５は、ビデオ監視デバイスの外部環境状態を決定するためにビデオデータを評価するための例示的プロセスのフローチャートを図示する。

図６は、コンピュータシステムの例示的ユーザインターフェースを図示する。

図７は、コンピュータシステムの例示的機械を図示する。

（詳細な説明）
本明細書では、本発明の具体的な実施形態が、詳細に参照される。実施形態またはそれらの側面のうちのいくつかが図面に図示される。

解説の明確化のために、本発明は、具体的な実施形態を参照して説明されているが、しかしながら、本発明が、説明される実施形態に限定されないことを理解されたい。むしろ、本発明は、任意の特許請求項によって定義されるような、その範囲内に含まれ得るような、代替物、修正、および同等物を網羅する。本発明の以下の実施形態は、本願発明に対するいかなる一般性の喪失も伴わず、それに限界を課すことなく、記載される。以下の説明では、具体的な詳細が、本発明の徹底的な理解を提供するために記載される。本発明は、これらの具体的な詳細の一部または全てを用いることなく、実践され得る。加えて、周知の特徴が、本発明を不必要に曖昧にすることを回避するために、詳細に説明されていない場合がある。

加えて、本例示的特許に記載される例示的方法のステップが、本明細書に提示される順序と異なる順序において実施され得ることも理解されたい。さらに、例示的方法のいくつかのステップは、順次に実施されるのではなく、並行して実施されてもよい。また、例示的方法のステップは、いくつかのステップが、ネットワーク化された環境内の異なるコンピュータによって実施される、ネットワーク環境内で実施されてもよい。

いくつかの実施形態が、コンピュータシステムによって実装される。コンピュータシステムは、プロセッサと、メモリと、非一過性コンピュータ可読媒体とを含んでもよい。メモリおよび非一過性媒体は、本明細書に説明される方法およびステップを実施するための命令を記憶してもよい。

図１は、機械学習ネットワークのリアルタイム展開において利用される、例示的コンピュータシステムのブロック図を図示する。コンピュータシステム１００は、ビデオ転換モジュール１０２と、コンピュータビジョンモジュール１０４と、機械学習ネットワークモジュール１０６と、グラフィカルユーザインターフェースモジュール１０８とを含む。ビデオ転換モジュール１０２は、ビデオデータを取得することが可能である、電子デバイス１１０（例えば、デジタルビデオカメラ）からビデオデータを受信する。ビデオ転換モジュール１０２は、受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換する。コンピュータビジョンモジュール１０４は、複数のビデオフレームを処理し、複数のビデオフレームを記憶デバイス１２０上に記憶する。記憶デバイス１２０は、ローカルまたは遠隔データベースまたは他のタイプのストレージキャッシュであってもよい。コンピュータビジョンモジュール１０４は、複数のビデオフレームを、機械学習ネットワークモジュール１０６によって処理されるべき入力に転換する。機械学習ネットワークモジュール１０６は、複数のビデオフレームに関する推測を実施し、ビデオフレーム内での１つ以上のオブジェクトの発生を決定する。グラフィカルユーザインターフェースモジュール１０８は、第１および第２の表示出力を含む、ユーザインターフェース１３２として、合成表示出力をレンダリングする。第１の表示出力は、エンコードされたビデオフレームのフレームレートまたはその近傍において、エンコードされたビデオフレームを表示する。第２の表示出力は、ビデオフレーム内の決定された１つ以上のオブジェクトに対応する、グラフィカル情報を描写する。第２の表示出力は、グラフィカル情報を、第１の表示出力のフレームレート未満またはそれに等しい、フレームレートにおいて描写してもよい。コンピュータシステム１００は、合成表示出力を監視デバイス（例えば、外部および一体型モニタ）に提供する。コンピュータシステム１００はさらに、図７を参照して説明される。

図２は、ビデオデータ内のオブジェクトを分類および識別するための例示的プロセスのフローチャートを図示する。コンピュータシステム１００は、ビデオ捕捉デバイスからビデオデータを受信する（ブロック２１０）。例えば、ビデオ捕捉デバイスは、デジタルビデオカメラを使用して、リアルタイムデジタルビデオを取得する。ビデオ捕捉デバイスは、直接有線接続ケーブルを介して、または無線接続を介してのいずれかでコンピュータシステム１００に接続される、外部デバイスであってもよい。加えて、デジタルビデオカメラは、コンピュータシステム１００の一体型コンポーネントとして構成されてもよい。理想的には、リアルタイムデジタルビデオが、高解像度において捕捉され、７２０ｐ（１，２８０×７２０ピクセル）に等しい、またはそれを上回る分解能を有する。

コンピュータシステム１００は、受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換する（ブロック２２０）。代替として、コンピュータシステム１００は、すでに特定の色空間フォーマットにエンコードされている、デジタルビデオデータを受信してもよい。該当する場合、コンピュータシステム１００は、エンコードされた色空間フォーマットへのビデオデータの転換を見合わせてもよい。エンコードされたビデオフレームの例示的な好適フレームレートは、秒あたり５０フレームまたはそれを上回るレートである。

コンピュータシステム１００は、複数のエンコードされたビデオフレームからリアルタイムの像を描写する、第１の表示出力をレンダリングする（ブロック２３０）。システム１００は、１つ以上の専用のグラフィカル処理ユニット（ＧＰＵ）の第１の群を使用し、第１の表示出力をレンダリングしてもよい。第１の表示出力は、エンコードされたビデオフレームのフレームレートまたはその近傍において、エンコードされたビデオフレームを表示する。コンピュータシステム１００は、１，２８０×７２０ピクセルまたはより高い高解像度分解能において、秒あたり５０フレームまたはより高い、高フレームレートにおける、第１の表示出力を介して、ビデオフレームを表示してもよい。

コンピュータシステム１００は、１つ以上の専用ＧＰＵの第２の群を使用して、機械学習ネットワークを使用して、複数のビデオフレームに関する推測を実施する（ブロック２４０）。システム１００は、デジタル画像内の１つ以上のオブジェクトタイプを分類するように訓練されている、機械学習ネットワークを使用した推測プロセスを通して、エンコードされたビデオフレームを評価する。機械学習推測プロセスは、境界ポリゴン（例えば、境界ボックス）座標を有する、オーバーレイ表示を生産する。推測の結果（すなわち、境界ポリゴン座標）が、第２の表示出力の結果をレンダリングする、１つ以上の専用ＧＰＵの第１の群のメモリに送信される。専用ＧＰＵの２つの群を使用することによって、システム１００は、１つ以上のＧＰＵの第１の群を使用した、第１および第２の表示出力のレンダリングと、１つ以上のＧＰＵの第２の群を使用した、ビデオフレームの推測とを並行処理してもよい。

コンピュータシステム１００は、複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定する（ブロック２５０）。コンピュータシステム１００は、訓練された機械学習ネットワークを使用し、ある部類の特定のオブジェクトがビデオフレーム内に存在する尤度を識別してもよい。機械学習ネットワークは、特定の部類のオブジェクトがビデオフレーム内で生じる信頼レベル（例えば、確率）を割り当ててもよい。コンピュータシステム１００は、ビデオフレーム内の識別されたオブジェクトの周囲に、またはそれを中心として、識別されたオブジェクトの場所を示す、グラフィカルインジケーションを発生させる。例えば、コンピュータシステム１００は、識別されたオブジェクトの周囲に、またはそれを中心として、境界周囲（例えば、輪郭が描かれた長方形のための座標）等のグラフィカル識別子を発生させてもよい。コンピュータシステム１００は、色付きのピクセル群面積、ピクセル群面積の色またはコントラストの変化、または識別されたオブジェクトの発生を示す、他のグラフィカル識別子等の他のグラフィカルインジケータを使用してもよい。

コンピュータシステム１００は、ビデオフレーム内の決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する、第２の表示出力をレンダリングする（ブロック２６０）。グラフィカル情報は、グラフィカルインジケーション、オブジェクトのタイプを識別する文字情報、および／またはオブジェクトがあるタイプである信頼度を示す、文字情報（例えば、割合または信頼度スコア）のうちの１つ以上のものを含み得る。

オブジェクト推測の出力値（例えば、グラフィカル情報）が、１つ以上のＧＰＵの第１の群のメモリの中の具体的場所の中に記憶される。したがって、第２の表示出力に関して、コンピュータシステム１００は、全てのビデオフレームのための具体的なメモリ場所から情報を取得してもよい。システム１００は、次いで、第１の表示出力と同一のフレームレートにおいて、第２の表示出力のためのグラフィカル情報をオーバーレイすることができる。言い換えると、コンピュータシステム１００は、２つのウィンドウを同一のフレームレートにおいてレンダリングしてもよい。第１のウィンドウは、ビデオ捕捉デバイスによって取得されたリアルタイムの像を表示する。第２のウィンドウは、第１のウィンドウにオーバーレイし、オブジェクト推測のためのグラフィカル情報を表示する。

コンピュータシステム１００は、次いで、第２の表示出力のグラフィカル情報でオーバーレイされる第１の表示出力の像を含む、合成表示出力を発生させる（ブロック２７０）。上記に示されるように、第１の表示出力は、エンコードされたビデオフレームのフレームレートまたはその近傍において、レンダリングされる。第２の表示出力は、訓練された機械学習ネットワークを使用して推測プロセスの間に発生される、グラフィカル情報を含む。第１の表示出力は、第２の表示出力でオーバーレイされる。第１の表示出力を第２の表示出力でオーバーレイするステップは、コンピュータシステム１００が、機械学習ネットワークによってビデオ内で識別されたオブジェクトのグラフィカルインジケーションに加えて、高フレームレートでリアルタイムビデオを表示することを可能にする。コンピュータシステム１００は、合成表示出力を、外部監視デバイスまたはコンピュータシステム１００と一体型の監視デバイスに提供してもよい。また、コンピュータシステム１００は、合成表示出力を、配信メディアサーバを介して遠隔監視デバイスに配信してもよい。例えば、遠隔監視デバイスのユーザは、インターネットまたは他のセキュリティ保護された仮想プライベートネットワークを介して、手技をリアルタイムで視認することが可能となり得る。

図３は、機械学習ネットワークのリアルタイム展開において利用される、例示的システムを図示する。ビデオ内視鏡およびプロセッサシステム３１０が、ビデオをコンピュータシステム３３０に提供する。コンピュータシステム３３０は、内視鏡およびプロセッサシステム３１０から受信されるビデオをエンコードするためのビデオ捕捉カードおよびエンコーダ３２０を含む。コンピュータシステム３３０は、中央処理ユニット（ＣＰＵ）３３２と、２つ以上のグラフィカル処理ユニット（ＧＰＵ）３３４と、システムメモリ３３６とを含む。コンピュータシステム３３０は、内視鏡およびプロセッサシステムからビデオデータを受信するためのモジュールと、受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換するためのモジュールと、複数のビデオフレームを処理し、複数のビデオフレームを記憶デバイス上に記憶するためのモジュールと、複数のビデオフレームを、機械学習ネットワークによって処理されるべき入力に転換するためのモジュールと、複数のビデオフレームに関する推測を実施し、ビデオフレーム内での１つ以上のオブジェクトの発生を決定するためのモジュールと、合成表示出力を、第１および第２の表示出力を含むユーザインターフェースとしてレンダリングするためのモジュールとを含む、種々のコンピュータソフトウェアモジュール３３８を実行する。第１の表示出力は、システム３３０によって取得されるリアルタイムビデオを表示する。第２の表示出力は、機械学習ネットワークによって識別されたビデオ内のオブジェクトについてのグラフィカルインジケーションおよび情報を表示する。本システムによって発生されるユーザインターフェースは、外部監視デバイス３４０に提供されてもよい。

内視鏡ユニット３１０は、内視鏡からのビデオ像を受信するためのプロセッサと、他の電子回路網とを含む。内視鏡ユニット３１０は、１つ以上のビデオ出力（例えば、ポートまたはコネクタ）、すなわち、合成ビデオ、ビデオグラフィックスアレイ（ＶＧＡ）、バヨネット・ニール・コンセルマン（ＢＮＣ）、デジタルビデオインターフェース（ＤＶＩ）、ＤＶＩ－Ｄ（シングルまたはデュアルリンク）、シリアデジタルインターフェース（ＳＤＩ）、ＨＤ－ＳＤＩ、デュアルリンクＨＤ－ＳＤＩ、３Ｇ－ＳＤＩ、６Ｇ－ＳＤＩ、１２Ｇ－ＳＤＩ、高精細度マルチメディアインターフェース（ＨＤＭＩ（登録商標））、ミニＨＤＭＩ、マイクロＨＤＭＩ、ＤｉｓｐｌａｙＰｏｒｔ、ビデオおよびオーディオのためのデジタルインターフェース（ＤｉｉＶＡ）、ＨＤＢａｓｅＴ、ＣｏａｘＰｒｅｓｓ、および／またはモバイル高精細リンク（ＭＨＬ）を含んでもよい。一実施形態では、内視鏡ユニットのビデオ出力が、ビデオ捕捉カード３２０への入力に配線されるケーブルを介して直接接続される。

システム３３０は、ビデオ捕捉カード３２０を使用し、取得されたビデオデータをエンコードされたビデオフレームにエンコードしてもよい。例示的な好適な捕捉カードは、ビデオ入力信号の受信および特定の色空間フォーマットのエンコードされたビデオフレームへのビデオ入力信号の転換を可能にする。

図４は、図３に説明されるコンピュータシステムを使用した内視鏡検査手技の文脈における、ビデオデータ内のオブジェクトを分類および識別するためのプロセスフローを図示する。内視鏡検査は、患者の身体の内側を評価または視認するために使用される手技である。例えば、内視鏡検査は、結腸、胃、食道、耳、鼻、喉、心臓、尿路、関節、および腹部の疾患を診断するために使用され得る。内視鏡検査手技の間、医師は、内視鏡を患者の身体の中に挿入し、患者の身体のビデオ像を取得する。

内視鏡４１０が、内視鏡４１０に取り付けられるデジタルカメラを使用して、ビデオ像を取得する（ブロック４１５）。内視鏡４１０は、典型的には、照明源と、内視鏡４１０のプローブ端の近傍に取り付けられる、デジタルビデオカメラとを含む。内視鏡４１０は、内視鏡４１０の動作を制御し、内視鏡４１０カメラによって取得されたビデオ像を処理する、メイン内視鏡ユニット４２０に接続される。内視鏡ユニット４２０は、検査する医師が、内視鏡検査手技の間に患者の身体の内側を視認し得るように、ビデオ像を１つ以上のビデオディスプレイに出力する（ブロック４２５）。内視鏡４１０の別の実施例は、内視鏡ユニット４２０に結合される可撓性光ファイバケーブルの束を含む、光ファイバ内視鏡（ファイバスコープとも称される）である。光ファイバケーブルのいくつかが、光源を、内視鏡ユニット４２０から光ファイバケーブルの検査端に透過し、患者の体腔を照明するために使用される。他の光ファイバケーブルは、光ファイバケーブルの検査端において、患者の体腔の像を捕捉するためのレンズを含む。像は、動作を記録するために光ファイバケーブルを介して受信ビデオカメラに返信される。

内視鏡ユニット４２０のビデオ出力信号が、コンピュータシステム４３０のビデオ捕捉カード４４０によって受信される。例えば、ビデオ捕捉カード４４０は、ＳＤＩコネクタを用いて内視鏡ユニット４２０からビデオ出力信号を受信する（例えば、捕捉する）（ブロック４４５）。ビデオ捕捉カード４４０は、受信されたビデオ出力信号を複数のエンコードされたビデオフレームに転換する。種々の実施形態では、受信された出力信号が、ＮＶ１２、Ｉ４２０、ＹＶ１２、ＹＵＹ２、ＹＵＹＶ、ＵＹＶＹ、ＵＶＹＵ、Ｖ３０８、ＩＹＵ２、Ｖ４０８、ＲＧＢ２４、ＲＧＢ３２、Ｖ４１０、Ｙ４１０、またはＹ４２Ｔ等の種々の色空間フォーマットにエンコードされてもよい。

複数のエンコードされたビデオフレームが、ビデオ捕捉カード４４０のメモリキャッシュの中に記憶される。一実施形態では、複数のエンコードされたビデオフレームは、秒あたり６０フレームのフレームレートに対応するように発生されてもよい。しかしながら、コンピュータシステム４３０は、秒あたり５０～２４０フレームのビデオフレームレートを発生させる、および／または可変のフレームレートを発生させるように構成されてもよい。

コンピュータシステム４３０は、ビデオフレーム内のオブジェクトの識別および抽出のためにコンピュータビジョンモジュール４６０を実行する。一実施形態では、コンピュータビジョンモジュール４６０は、１つ以上のＣＰＵの第１の群を使用して実装される。種々の実施形態では、コンピュータビジョンモジュール４６０は、ＧＰＵの第１または第２の群、または１つ以上のＧＰＵの第３の群、またはそれらの組み合わせを使用して実装されてもよい。一実施形態では、ＯｐｅｎＣＶが、これらの機能を実施するために使用される。ＯｐｅｎＣＶは、オープンソースのリアルタイムコンピュータビジョンおよび機械学習ソフトウェアライブラリである。アプリケーションプログラミングインターフェースを使用して、コンピュータビジョンモジュール４６０は、ビデオ捕捉カード４４０のメモリキャッシュから直接、記憶されたビデオフレームデータを取得する（例えば、捕捉する）（ブロック４６５）。コンピュータビジョンモジュール４６０は、ビデオ捕捉カード４４０へのアプリケーションプログラミングインターフェース（ＡＰＩ）呼出を通して、記憶されたビデオフレームデータを読み出し、データをＲＡＭに転送することなく、データを直接コンピュータビジョンモジュール４６０に転送してもよい（ブロック４６５）。コンピュータビジョンモジュール４６０は、読出の呼出毎に、ビデオ捕捉カードから１つ以上のビデオフレームを読み出してもよい。

ＡＰＩ呼出の一実施形態では、ＡＰＩは、ビデオ捕捉カード４４０によって実装される。コンピュータビジョンモジュール４６０を実装する１つ以上のＣＰＵの第１の群が、ビデオ捕捉カード４４０によって実装されるＡＰＩ機能への呼出を実施する。ＡＰＩ機能呼出は、記憶されたビデオフレームデータ等、転送するためのデータの、ビデオ捕捉カード４４０内のメモリ場所を識別する、ソースアドレスと、データを転送するためのＧＰＵの、メモリ内の場所を示す、アドレスとを含んでもよい（ブロック４６５）。ＡＰＩ呼出に応答して、ビデオ捕捉カード４４０は、バス、クロスバー、ネットワーク相互接続、またはＰＣＩＥｘｐｒｅｓｓ等の相互接続を通して、データをソース場所から目的地場所に転送する。コンピュータシステム４３０のＣＰＵは、転送プロセスに関わらない。

コンピュータビジョンモジュール４６０は、取得されたビデオフレームデータを処理し、ビデオファイルを発生させてもよい。本プロセスは、コンピュータシステム４３０が、内視鏡検査手技のビデオ像を記憶することを可能にする。例えば、コンピュータビジョンモジュール４６０は、ＯｐｅｎＣＶ機能である、ＶｉｄｅｏＷｒｉｔｅｒ（ｃｏｎｓｔＳｔｒｉｎｇ＆ｆｉｌｅｎａｍｅ，ｉｎｔｆｏｕｒｃｃ，ｄｏｕｂｌｅｆｐｓ，ＳｉｚｅｆｒａｍｅＳｉｚｅ，ｂｏｏｌｉｓＣｏｌｏｒ＝ｔｒｕｅ）を使用してもよい（変数ｆｉｌｅｎａｍｅは、出力ビデオファイルの名称であり、ｆｏｕｒｃｃは、フレームを圧縮する使用される、４文字のコードであり、ｆｐｓは、生成されるビデオ配信物のフレームレートであり、ｆｒａｍｅＳｉｚｅは、ビデオフレームのサイズであり、ｉｓＣｏｌｏｒは、カラーまたはグレースケールフレームを識別するために使用される）。

コンピュータシステム４３０は、１つ以上のイベントに基づいて、内視鏡ユニットから受信されるビデオ像を記録および記憶し始めてもよい。一実施例では、コンピュータシステム４３０は、コンピュータシステム４３０が、具体的なコマンド（記録を始める、または停止するためのコンピュータシステム４３０への受信されたユーザ入力等）を受信すると、ビデオを記録するステップを始める、または停止する。別の実施例では、コンピュータシステム４３０は、コンピュータシステム４３０が、内視鏡ユニットがコンピュータシステム４３０にビデオデータを伝送し始めたことを決定すると、受信されたビデオ像を記憶し始めてもよい。

加えて、コンピュータシステム４３０は、コンピュータシステム４３０が、評価手技の開始を検出すると、内視鏡ユニットから受信されたビデオ像を記録し始めてもよい。コンピュータシステム４３０は、第１のビデオフレームと第２のビデオフレームを比較し、コントラスト、色相、色、明度、または輝度の変化等の画像特性の１つ以上の変化を検出してもよい。例えば、内視鏡が、患者の体腔に導入されるにつれて、ビデオフレーム内のデジタル画像が、明るい画像からより暗い画像に変化する場合がある。コンピュータシステム４３０は、手技開始イベントとして明度の変化を検出し、取得されたビデオを記録するステップを開始してもよい。また、コンピュータシステム４３０は、機械学習ネットワークを使用して、評価手技の開始を検出し、ビデオ像を評価し、手技の開始が始められた可能性が高いときを決定してもよい。逆に、コンピュータシステム４３０は、コンピュータシステム４３０が、内視鏡が体腔から除去されたことを検出すると、記録を自動的に停止させてもよい。また、コンピュータシステム４３０は、ビデオのローリング周期（例えば、３０秒のウィンドウ）を記憶し、記録されるビデオ像内にローリング周期ビデオを含めてもよい。

並行して、または内視鏡検査手技が完了された後、ビデオファイルが、コンピュータシステム４３０によって暗号化され（ブロック４３５）、セキュアなネットワークを経由してクラウドベースのサーバ（例えば、ＡｍａｚｏｎＳｉｍｐｌｅＳｔｏｒａｇｅＳｅｒｖｉｃｅ）４８０に伝送され、後の読出または分析のために記憶されてもよい（ブロック４８５）。

フレームデータを取得した（ブロック４６５）後、コンピュータビジョンモジュール４６０は、機械学習ネットワークを通した処理のために、ビデオフレームデータをテンソルオブジェクトに転換する（ブロック４６７）。テンソルオブジェクトは、任意の数の次元のベクトルまたは行列を備える。テンソルオブジェクトは、次元０（スカラー）、次元１（ベクトル）、次元２（２次元行列）、またはより高い数の次元を有し得る。例えば、コンピュータシステム４３０は、ビデオフレームを処理し、フレーム（例えば、入力画像）をテンソルオブジェクトに転換してもよい。フレームは、最初に、新しいテンソルオブジェクトを生成し、次いで、そのフレームからの全てのピクセルをテンソルにマップすることによって、テンソルに転換される。

一実施形態では、コンピュータシステム４３０は、ＴｅｎｓｏｒＦｌｏｗモジュール４７０およびそのオブジェクト検出ＡＰＩフレームワークを使用し、テンソルオブジェクトに関する推測を実施する。ＴｅｎｓｏｒＦｌｏｗは、機械学習および数値算出のためのオープンソースライブラリである。ＴｅｎｓｏｒＦｌｏｗでは、算出は、種々のタイプのデータを表す、多次元アレイのベクトルまたは行列である、テンソルを伴う。ＴｅｎｓｏｒＦｌｏｗでは、算出は、ステートフルデータフローグラフとしてアプローチされる。ＴｅｎｓｏｒＦｌｏｗオブジェクト検出ＡＰＩは、オブジェクト検出モデルの構築、訓練、および展開を可能にする、ＴｅｎｓｏｒＦｌｏｗの上に確立される、オープンソースフレームワークである。

コンピュータシステム４３０は、１つ以上の予め訓練された機械学習ネットワークを使用し、テンソルオブジェクト上で推測プロセスを実施する（ブロック４７５）。機械学習ネットワークは、設定された画像訓練データからの画像特徴に基づいて、種々のオブジェクトタイプまたは部類を推測するように訓練されてもよい。一実施形態では、機械学習ネットワークは、ポリープの種々の画像を含む、デジタル画像データの訓練セットに基づいて、ポリープを識別するように訓練される。機械学習ネットワークは、ポリープの特徴を学習し、デジタル画像内でのデジタル画像の発生を識別することが可能である。機械学習ネットワークは、内視鏡の本体内の場所を識別すること、ポリープが存在するかどうかを識別すること、ポリープのタイプを識別すること等の異なるタスクのために訓練されてもよい。機械学習ネットワークのうちの１つ以上のものが、並行して起動され、処理帯域幅を拡大し、より迅速に推測を完了してもよい。

ＴｅｎｓｏｒＦｌｏｗモジュール４７０は、入力画像が特定のタイプのオブジェクトである尤度を示す、結果を生産する（ブロック４７７）。ＴｅｎｓｏｒＦｌｏｗモジュール４７０は、検出されたオブジェクトと関連付けられる座標値を出力する。例えば、ポリープが、検出された場合、長方形または正方形を説明するデカルト座標を伴う境界ポリゴン（例えば、境界ボックス）等のグラフィカルインジケーションが、発生されるであろう。座標値は、ＴｅｎｓｏｒＦｌｏｗモジュール４７０から出力され、Ｑｔフレームワーク４５０に送信され、境界ポリゴンをオーバーレイとしてグラフィカルにレンダリングするであろう。

コンピュータシステム４３０は、グラフィカルユーザインターフェースモジュール４５０を実行し、合成ビデオ出力をユーザインターフェースとして発生させる。合成ビデオ出力は、外部監視デバイス４９０に表示されてもよい。一実施形態では、コンピュータシステム４３０は、Ｑｔソフトウェアを実行し、合成ビデオ出力を管理および発生させる。Ｑｔソフトウェアは、グラフィカルユーザインターフェースを開発するためのオープンソースツールキットである。コンピュータシステム４３０は、Ｑｔフレームワーク４５０を使用し、２つのウィンドウを表示する。Ｑｔフレームワーク４５０は、１つ以上のＣＰＵの第１の群、またはコンピュータビジョンモジュール４６０を起動させるＣＰＵの第１の群と異なる、１つ以上のＣＰＵの第２の群上で起動されてもよい。また、Ｑｔフレームワークは、ＧＰＵの第１の群、ＧＰＵの第２の群、または１つ以上のＧＰＵの第３の群、またはそれらの組み合わせの上で起動されてもよい。ＡＰＩを使用して、Ｑｔフレームワーク４５０は、ビデオ捕捉カード４４０のメモリキャッシュから直接、記憶されたビデオフレームデータを取得する。転送は、コンピュータシステム４３０のＣＰＵを伴うことなく、かつビデオフレームデータがコンピュータシステム４３０のＲＡＭ内に記憶されることなく、実施されてもよい。Ｑｔフレームワーク４５０は、読出の呼出毎に、ビデオ捕捉カードから１つ以上のビデオフレームを読み出してもよい。コンピュータシステム４３０は、受信されたビデオの複数のエンコードされたビデオフレームを表示するために、１つのウィンドウ（すなわち、第１の表示ウィンドウ）をレンダリングする（ブロック４５５）。コンピュータシステム４３０は、オーバーレイウィンドウをレンダリングするために、別のウィンドウ（すなわち、第２の表示ウィンドウ）を使用する（ブロック４５７）。オーバーレイウィンドウは、機械学習ネットワークモデル介したビデオフレームの処理から発生されたグラフィカル結果を伴う、複数のエンコードされたビデオフレームを表示する。

ＡＰＩ呼出の一実施形態では、ＡＰＩは、ビデオ捕捉カード４４０によって実装される。Ｑｔフレームワーク４５０が、ビデオ捕捉カード４４０によって実装される、ＡＰＩ機能への呼出を実施する。ＡＰＩ機能呼出は、１つ以上のビデオフレーム等、転送するためのデータの、ビデオ捕捉カード４４０内のメモリ場所を識別する、ソースアドレスと、データを転送するためのＧＰＵの、メモリ内の場所を示す、アドレスとを含んでもよい。ＡＰＩ呼出に応答して、ビデオ捕捉カード４４０は、バス、クロスバー、ネットワーク相互接続、またはＰＣＩＥｘｐｒｅｓｓ等の相互接続を通して、データをソース場所から目的地場所に転送する。

一実施形態では、第１の表示ウィンドウは、複数のエンコードされたビデオフレームを、それらがビデオ捕捉カード４４０から受信されるにつれて、リアルタイムで提示する。第２の表示ウィンドウは、第２の表示ウィンドウ内に識別されたオブジェクトおよび他の文字およびグラフィカル情報を示す、グラフィカルオーバーレイを提示する。例えば、第１の表示ウィンドウは、患者の結腸の像を描写する、結腸内視鏡検査等の内視鏡検査手技のリアルタイム像を提示してもよい。第１の表示ウィンドウは、内視鏡４１０によって取得されたビデオを提示する。加えて、第１の表示ウィンドウは、ビデオ内に内視鏡ユニット４１０によって表示される、他のユーザインターフェース情報を提示してもよい。第２の表示ウィンドウは、第１の表示ウィンドウにわたって、その正面に、またはその上に置かれる、グラフィカルおよび／または文字情報を提示する。第１の表示ウィンドウは、１，０８０ｐ（１，９２０×１，０８０ピクセル）、２Ｋ（２，０４８×１，０８０ピクセル）、１，４４０ｐ（２，５６０×１，４４０ピクセル）、４Ｋまたは２，１６０ｐ（３，８４０×２，１６０ピクセル）、および／または８Ｋ（７，６８０×４，３２０ピクセル）の分解能において表示されてもよい。

図５は、ビデオ監視デバイスの外部環境状態を決定するためにビデオデータを評価するための例示的プロセスのフローチャートを図示する。コンピュータシステム１００、３３０、４３０は、ビデオフレームの評価に基づいて、付加的な機能またはプロセスを実施してもよい。コンピュータシステム１００、３３０、４３０は、エンコードされたビデオフレームを受信する（ブロック５１０）。例えば、内視鏡が、患者の体腔の中に導入されるにつれて、コンピュータシステム１００、３３０、４３０は、内視鏡ユニットからライブビデオ像を受信し、コンピュータシステム１００、３３０、４３０は、ビデオデータをエンコードされたビデオフレームに転換する。

コンピュータシステムは、次いで、エンコードされたビデオフレームの画像を評価する（ブロック５２０）。コンピュータシステム１００、３３０、４３０は、第１の画像を後続の第２の画像と比較する、および／または特定のビデオフレームの画像特性を要求される画像特性の所定のセットに対して比較してもよい。ビデオフレームを評価することによって、コンピュータシステムは、ビデオ監視デバイスの外部環境状態を決定してもよい（ブロック５３０）。例えば、結腸内視鏡検査の文脈において、内視鏡の外部環境状態は、コンピュータシステム１００、３３０、４３０によって、ポリープおよび／または他の異常に関して結腸を検査するために、結腸が十分に空であり、清浄であるかどうかを査定するために評価されてもよい。コンピュータシステム１００、３００、４３０は、ビデオフレームの機械学習ネットワーク画像特性（例えば、色相、色、明度、コントラスト、輝度）を介して評価してもよい。一実施形態では、コンピュータシステム１００、３３０、４３０は、結腸の色を評価し、結腸が結腸内視鏡検査のために準備されているかどうかを決定してもよい。別の実施形態では、機械学習ネットワークが、結腸準備の多数のデジタル画像に基づいて訓練されてもよい。機械学習ネットワークは、１つ以上のビデオフレームを評価することによって、結腸が準備されているかどうかを決定し、良好な結果に関して「１」、または悪い結果に関して「０」等の結果を決定してもよい。機械学習ネットワークに基づいて、システム１００、３３０、４３０は、結腸準備の品質をバイナリスケールに基づいて決定してもよく、「０」は、最悪であり、「１」は、最も清浄である。結腸準備が、十分な品質ではない場合、システム１００、３３０、４３０は、第２の表示出力の文字および／またはグラフィカルインジケーションを介して、結腸が手技のために十分に準備されていないことを示してもよい。

決定された外部環境状態に基づいて、コンピュータシステム１００、３３０、４３０は、１つ以上の機能を実施してもよい（ブロック５４０）。例えば、コンピュータシステムは、コンピュータシステムが、環境状態がビデオ画像内のオブジェクトを識別するために不適切である（例えば、十分に準備されていない、または清浄ではない）と決定した場合、機械学習ネットワークを介したビデオ画像の他の推測を見合わせてもよい。しかしながら、コンピュータシステムは、外部環境状態が好適であると決定された場合、機械学習ネットワークを介した他の推測を実施してもよい。例えば、コンピュータシステム１００、３３０、４３０は、結腸が準備された良好度合のインジケーションまたはスコアを発生させてもよい。準備スコアが、所定の閾値を超過する場合、コンピュータシステムは、結腸（すなわち、外部環境）が、機械学習ネットワークを介した他の推測のために好適であると決定してもよい。加えて、コンピュータシステム１００、３３０、４３０は、外部環境状態が、手技（例えば、結腸内視鏡検査）を実施するために好適であるかそうでないかを示す、メッセージまたは他のユーザ出力を発生させてもよい。

コンピュータシステム１００、３３０、４３０は、ビデオ監視デバイスの外部環境状態のインジケーションを発生させてもよい（ブロック５５０）。コンピュータシステム１００、３３０、４３０は、ビデオ監視デバイスの環境状態のインジケーションを表示してもよい（ブロック５６０）。例えば、コンピュータシステム１００、３３０、４３０は、監視デバイスに、外部環境状態を示す、出力を提供してもよい。

ここで図６を参照すると、コンピュータシステム１００、３３０、４３０の例示的ユーザインターフェース６００が、図示される。ユーザインターフェース６００は、第１の表示ウィンドウおよび第２の表示ウィンドウの合成ディスプレイを図示する。ユーザインターフェース６００は、第１の表示ウィンドウからのビデオを表示するための、ビデオ表示面積６１０を含む。ビデオディスプレイ６１０面積は、ユーザインターフェース６００の部分面積の一部であってもよい、またはユーザインターフェース６００の全体的表示面積を含んでもよい。実施例では、ビデオ表示面積６１０は、ユーザインターフェース６００の部分面積である。ビデオ表示面積は、上記に説明されるように、第１の表示ウィンドウのビデオ６２０を表示する。

ユーザインターフェース６００は、第２の表示ウィンドウのグラフィカル情報を表示するためのグラフィカル情報表示面積を含む。グラフィカル情報表示面積の一部が、ビデオ表示面積６１０にわたって表示される。例示的ユーザインターフェース６００では、検出されたオブジェクト６３０のグラフィカルインジケーション（例えば、長方形境界ポリゴン）が、ビデオ表示面積６１０内のビデオ６２０にわたって表示される。

グラフィカル情報表示面積はまた、ユーザインターフェースの他の部分面積を含んでもよい。グラフィカル情報表示面積は、ビデオフレーム６２０内で識別されたオブジェクト６３０に対応する情報を表示する、情報表示面積６０２、６０４、６０６、６０８を含んでもよい。例えば、情報表示面積６０２は、検出されたオブジェクト６３０のタイプまたは部類についての情報を表示してもよい。情報表示面積６０２は、検出されたオブジェクト６３０がポリープであることを示してもよい。

加えて、複数のオブジェクトが、検出され、ビデオ表示面積６１０内に表示される場合、情報表示面積６０２、６０４、６０６、６０８は、検出されたオブジェクトのグラフィカルインジケーション上の標識と一致する、英数字文字等の識別子で標識されてもよい。例えば、コンピュータシステム１００、３３０、４３０は、上記で議論されるような機械学習ネットワークを使用して、ビデオフレーム内に４つのオブジェクトを検出している。本場合では、グラフィカル情報表示面積は、オブジェクトの４つのグラフィカルインジケーション（例えば、４つの長方形境界ポリゴン）を含むであろう。４つのグラフィカルインジケーションはそれぞれ、１、２、３、４と標識されてもよい、および／または色分けされてもよい。情報表示面積６０２、６０４、６０６、６０８はそれぞれ、個別の検出されたオブジェクトに対応する情報を含むであろう。また、異なるオブジェクトタイプが、機械学習ネットワークを介して検出されている場合もある。本場合では、同一のタイプのオブジェクトのグラフィカルインジケーションが、同一の色で表示されてもよく、他のオブジェクトタイプが、異なる色において表示されてもよい。

図７は、機械に、本明細書に議論される方法論のうちのいずれか１つ以上のものを実施させるための命令のセットが実行され得る、コンピュータシステムの例示的機械を図示する。代替実装では、機械は、ＬＡＮ、イントラネット、エクストラネット、および／またはインターネット内の他の機械に接続（例えば、ネットワーク化）されてもよい。機械は、ピアツーピア（または分散型）ネットワーク環境内のピア機械として、またはクラウドコンピューティングインフラストラクチャまたは環境内のサーバまたはクライアント機械として、クライアントサーバネットワーク環境内のサーバまたはクライアント機械の能力内で動作してもよい。

機械は、その機械によってとられるべきアクションを規定する、（順次または別様の）命令のセットを実行することが可能である、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、携帯情報端末（ＰＤＡ）、携帯電話、ウェブ装置、サーバ、ネットワークルータ、スイッチ、またはブリッジ、または任意の機械であってもよい。さらに、単一の機械が、図示されているが、用語「機械」はまた、本明細書に議論される方法論のうちのいずれか１つ以上のものを実施するための命令のセット（または複数のセット）を個々に、または一緒に実行する、任意の機械の集合を含むと捉えるものとする。

例示的コンピュータシステム７００は、バス７３０を介して相互と通信する、処理デバイス７０２と、メインメモリ７０４（例えば、読取専用メモリ（ＲＯＭ）、フラッシュメモリ、同期ＤＲＡＭ（ＳＤＲＡＭ）またはＲａｍｂｕｓＤＲＡＭ（ＲＤＲＡＭ）等の動的ランダムアクセスメモリ（ＤＲＡＭ）等）と、静的メモリ７０６（例えば、フラッシュメモリ、静的ランダムアクセスメモリ（ＳＲＡＭ）等）と、データ記憶デバイス７１８とを含む。

処理デバイス７０２は、マイクロプロセッサ、中央処理ユニット、または同等物等の１つ以上の汎用目的処理デバイスを表す。より具体的には、処理デバイスは、複合命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、または他の命令セットを実装するプロセッサ、または命令セットの組み合わせを実装するプロセッサであってもよい。処理デバイス７０２はまた、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、または同等物等の１つ以上の特殊目的処理デバイスであってもよい。処理デバイス７０２は、本明細書に議論される動作およびステップを実施するための命令７２６を実行するように構成される。一実施形態では、コンピュータシステム７００は、マザーボードのＰＣＩｅレーンの使用を最適化するためのＰＬＸチップを伴う、マザーボードを使用してもよい。

コンピュータシステム７００はさらに、ネットワーク７２０を経由して通信するためのネットワークインターフェースデバイス７０８を含んでもよい。コンピュータシステム７００はまた、ビデオディスプレイユニット７１０（例えば、液晶ディスプレイ（ＬＣＤ）または陰極線管（ＣＲＴ））と、英数字入力デバイス７１２（例えば、キーボード）と、カーソル制御デバイス７１４（例えば、マウス）と、グラフィック処理ユニット７２２と、信号発生デバイス７１６（例えば、スピーカ）と、ビデオ処理ユニット７２８と、オーディオ処理ユニット７３２とを含んでもよい。

データ記憶デバイス７１８は、その上で命令の記憶された１つ以上のセットまたはソフトウェア７２６が、本明細書に説明される方法論または機能のうちのいずれか１つ以上のものを具現化する、機械可読記憶媒体７２４（コンピュータ可読媒体としても公知である）を含んでもよい。命令７２６はまた、機械可読記憶媒体も成す、コンピュータシステム７００、メインメモリ７０４、および処理デバイス７０２による、その実行の間に、完全または少なくとも部分的に、メインメモリ７０４内および／または処理デバイス７０２内に常駐してもよい。

１つの実装では、命令７２６は、本明細書における開示を実施するためのデバイスのコンポーネントに対応する機能性を実装するための命令を含む。機械可読記憶媒体７２４が、単一の媒体であるように例示的実装に示されているが、用語「機械可読記憶媒体」は、命令の１つ以上のセットを記憶する、単一の媒体または複数の媒体（例えば、一元型または分散型データベース、および／または関連付けられるキャッシュおよびサーバ）を含むと捉えられるべきである。用語「機械可読記憶媒体」はまた、機械による実行のための、かつ機械に本開示の方法論のうちのいずれか１つ以上のものを実施させる、命令のセットを記憶またはエンコードすることが可能である、任意の媒体を含むとも捉えられるべきである。用語「機械可読記憶媒体」は、故に、限定ではないが、ソリッドステートメモリ、光学媒体、および磁気媒体を含むと捉えられるべきである。

前述の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに関する動作のアルゴリズムおよび象徴的表現の観点から提示されている。これらのアルゴリズムの説明および表現は、データ処理分野の当業者によって、その作業の内容を他の当業者に最も効果的に伝達するために使用される方法である。アルゴリズムは、ここでは、概して、所望の結果につながる動作の自己矛盾のないシーケンスであると考えられる。動作は、物理量の物理的操作を要求するものである。通常、必ずしもというわけではないが、これらの量は、記憶、組み合わせ、比較、および別様に操作されることが可能である、電気または磁気信号の形態をとる。時として、主に、一般的な使用の理由のために、これらの信号をビット、値、要素、記号、文字、用語、数値、または同等物として称することが、時として、便宜的であると証明されている。

一般に、用語「エンジン」および「モジュール」は、本明細書で使用されるように、ハードウェアまたはファームウェア内で具現化される論理、または、可能性として、例えば、Ｊａｖａ（登録商標）、Ｌｕａ、Ｃ、またはＣ＋＋等のプログラミング言語において記述される、入口点と、出口点とを有する、ソフトウェア命令の集合を指す。ソフトウェアモジュールは、動的リンクライブラリ内にインストールされる実行可能なプログラムにコンパイルおよびリンクされてもよい、または、例えば、ＢＡＳＩＣ、Ｐｅｒｌ、またはＰｙｔｈｏｎ等のインタープリタ型プログラミング言語において記述されてもよい。ソフトウェアモジュールが、他のモジュールから、またはそれら自体から呼出可能であり得る、および／または検出されるイベントまたは割込に応答して起動され得ることを理解されたい。コンピューティングデバイス上での実行のために構成されるソフトウェアモジュールが、コンパクトディスク、デジタルビデオディスク、フラッシュドライブ、または任意の他の有形媒体等の１つ以上のコンピュータ可読媒体上に提供されてもよい。そのようなソフトウェアコードは、部分的または完全に、実行コンピューティングデバイスのメモリデバイス上に記憶されてもよい。ソフトウェア命令が、ＥＰＲＯＭ等のファームウェア内に組み込まれてもよい。ハードウェアモジュールが、ゲートおよびフリップフロップ等の接続される論理ユニットから成り得る、および／またはプログラマブルゲートアレイまたはプロセッサ等のプログラマブルユニットから成り得ることも、さらに理解されたい。本明細書に説明されるモジュールは、好ましくは、ソフトウェアモジュールとして実装されるが、ハードウェアまたはファームウェアにおいて表されてもよい。概して、本明細書に説明されるモジュールは、それらの物理的編成またはストレージにかかわらず、他のモジュールと組み合わせられる、またはサブモジュールに分割され得る、論理モジュールを指す。

しかしながら、これらおよび類似の用語の全てが、適切な物理量と関連付けられるべきであり、これらの量に適用される、便宜的な標識にすぎないことを念頭に置かれたい。上記の議論から明白であるものとして別様に具体的に記載されない限り、説明の全体を通した、「～を識別する」または「～を決定する」または「～を実行する」または「～を実施する」または「～を収集する」または「～を生成する」または「～を送信する」または同等物等の用語を利用する議論が、コンピュータシステムのレジスタおよびメモリ内の物理（電子）量として表されるデータを、コンピュータシステムメモリまたはレジスタまたは他のそのような情報記憶デバイス内の物理量として同様に表される他のデータに操作および変換する、コンピュータシステムまたは類似する電子コンピューティングデバイスのアクションおよびプロセスを指すことを理解されたい。

本開示はまた、本明細書の動作を実施するための装置に関する。本装置は、意図される目的のために特別に構築されてもよい、またはコンピュータ内に記憶されるコンピュータプログラムによって選択的にアクティブ化または再構成される、汎用目的コンピュータを備えてもよい。そのようなコンピュータプログラムは、限定ではないが、フロッピーディスク、光学ディスク、ＣＤ－ＲＯＭ、光磁気ディスク、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光学カード、または電子命令を記憶するために好適な任意のタイプの媒体等の、コンピュータ可読記憶媒体内に記憶されてもよく、それぞれが、コンピュータシステムバスに結合されてもよい。

種々の汎用目的システムが、本明細書の教示によるプログラムと併用され得る、またはより特殊な装置を構築し、方法を実施することが、便宜的であることを証明し得る。種々のこれらのシステムのための構造が、上記の説明において記載されるように現れるであろう。加えて、本開示は、いかなる特定のプログラミング言語も参照して説明されていない。種々のプログラミング言語が、本明細書に説明されるように、本開示の教示を実装するために使用され得ることを理解されたい。

本開示は、本開示によるプロセスを実施するためのコンピュータシステム（または他の電子デバイス）をプログラムするために使用され得る、その上に命令を記憶している機械可読媒体を含み得る、コンピュータプログラム製品またはソフトウェアとして提供され得る。機械可読媒体は、機械（例えば、コンピュータ）によって読取可能な形態にある情報を記憶するための任意の機構を含む。例えば、機械可読（例えば、コンピュータ可読）媒体は、読取専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス等の機械（例えば、コンピュータ）可読記憶媒体を含む。

前述の開示では、本開示の実装は、それらの具体的な例示的実装を参照して説明されている。種々の修正が、以下の請求項において記載されているように、本開示の実装のより広義の精神および範囲から逸脱することなく、それに成され得ることが、明白となるであろう。本開示および図面は、故に、制限的な意味ではなく、例証的な意味で見なされるべきである。

Claims

システムであって、前記システムは、１つ以上のプロセッサと、非一過性コンピュータ可読媒体とを備え、前記非一過性コンピュータ可読媒体は、命令の１つ以上のシーケンスを含み、前記命令の１つ以上のシーケンスは、前記１つ以上のプロセッサによって実行されると、前記システムに、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第１の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する第２の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第２の表示出力のグラフィカル情報でオーバーレイされる前記第１の表示出力の像を含む、ことと
を含む動作を実施させ、
前記第２の表示出力のグラフィカル情報は、前記決定された１つ以上のオブジェクトに対応する文字情報を含み、前記文字情報は、前記第１の表示出力の非ビデオ表示面積にわたって配置される、システム。
前記第１の表示出力は、秒あたり５０～２４０フレームのフレームレートにおいて像を描写する、請求項１に記載のシステム。
前記第２の表示出力は、前記第１の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、請求項１に記載のシステム。
前記１つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記決定された１つ以上のオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、請求項１に記載のシステム。
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、請求項１に記載のシステム。
前記複数のエンコードされたビデオフレームは、ＮＶ１２と、Ｉ４２０と、ＹＶ１２と、ＹＵＹ２と、ＹＵＹＶと、ＵＹＶＹと、ＵＶＹＵと、Ｖ３０８と、ＩＹＵ２と、Ｖ４０８と、ＲＧＢ２４と、ＲＧＢ３２と、Ｖ４１０と、Ｙ４１０と、Ｙ４２Ｔとから成る群から選択される色空間フォーマットにエンコードされる、請求項１に記載のシステム。
前記第２の表示出力のグラフィカル情報は、前記第１の表示出力のビデオ表示面積にわたって配置される前記１つ以上のオブジェクトのグラフィカルインジケーションを含む、請求項１に記載のシステム。
１つ以上のプロセッサから成るシステムによって実装される方法であって、前記方法は、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第１の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する第２の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第２の表示出力のグラフィカル情報でオーバーレイされる前記第１の表示出力の像を含む、ことと
を含み、
前記第２の表示出力のグラフィカル情報は、前記決定された１つ以上のオブジェクトに対応する文字情報を含み、前記文字情報は、前記第１の表示出力の非ビデオ表示面積にわたって配置される、方法。
前記第１の表示出力は、秒あたり５０～２４０フレームのフレームレートにおいて像を描写する、請求項８に記載の方法。
前記第２の表示出力は、前記第１の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、請求項８に記載の方法。
前記１つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記決定された１つ以上のオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、請求項８に記載の方法。
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、請求項８に記載の方法。
前記複数のエンコードされたビデオフレームは、ＮＶ１２と、Ｉ４２０と、ＹＶ１２と、ＹＵＹ２と、ＹＵＹＶと、ＵＹＶＹと、ＵＶＹＵと、Ｖ３０８と、ＩＹＵ２と、Ｖ４０８と、ＲＧＢ２４と、ＲＧＢ３２と、Ｖ４１０と、Ｙ４１０と、Ｙ４２Ｔとから成る群から選択される色空間フォーマットにエンコードされる、請求項８に記載の方法。
前記第２の表示出力のグラフィカル情報は、前記第１の表示出力のビデオ表示面積にわたって配置される前記１つ以上のオブジェクトのグラフィカルインジケーションを含む、請求項８に記載の方法。
非一過性コンピュータ記憶媒体であって、前記非一過性コンピュータ記憶媒体は、命令を備え、前記命令は、１つ以上のプロセッサを備えるシステムによって実行されると、前記１つ以上のプロセッサに、
ビデオデータを受信することであって、前記ビデオデータは、ビデオ画像捕捉デバイスから取得されている、ことと、
前記受信されたビデオデータを、特定の色空間フォーマットにエンコードされた複数のビデオフレームに転換することと、
前記複数のエンコードされたビデオフレームからの像を描写する第１の表示出力をレンダリングすることと、
機械学習ネットワークを使用して、前記複数のビデオフレームに関する推測を実施することと、
前記複数のエンコードされたビデオフレーム内での１つ以上のオブジェクトの発生を決定することと、
前記複数のエンコードされたビデオフレームからの前記決定された１つ以上のオブジェクトに対応するグラフィカル情報を描写する第２の表示出力をレンダリングすることと、
合成表示出力を発生させることであって、前記合成表示出力は、前記第２の表示出力のグラフィカル情報でオーバーレイされる前記第１の表示出力の像を含む、ことと
を含む動作を実施させ、
前記第２の表示出力のグラフィカル情報は、前記決定された１つ以上のオブジェクトに対応する文字情報を含み、前記文字情報は、前記第１の表示出力の非ビデオ表示面積にわたって配置される、非一過性コンピュータ記憶媒体。
前記第１の表示出力は、秒あたり５０～２４０フレームのフレームレートにおいて像を描写する、請求項１５に記載の非一過性コンピュータ記憶媒体。
前記第２の表示出力は、前記第１の表示出力のフレームレート未満またはそれに等しいフレームレートにおいて前記グラフィカル情報を描写する、請求項１５に記載の非一過性コンピュータ記憶媒体。
前記１つ以上のオブジェクトの周囲に、またはそれを中心として、前記ビデオフレーム内の前記決定された１つ以上のオブジェクトの場所を示すグラフィカルインジケーションを発生させる動作をさらに含む、請求項１５に記載の非一過性コンピュータ記憶媒体。
前記ビデオ画像捕捉デバイスの外部環境状態を決定する動作と、
前記推測を、前記外部環境状態が前記機械学習ネットワークを介して推測を実施するために好適である場合に、実施する動作と
をさらに含む、請求項１５に記載の非一過性コンピュータ記憶媒体。
前記複数のエンコードされたビデオフレームは、ＮＶ１２と、Ｉ４２０と、ＹＶ１２と、ＹＵＹ２と、ＹＵＹＶと、ＵＹＶＹと、ＵＶＹＵと、Ｖ３０８と、ＩＹＵ２と、Ｖ４０８と、ＲＧＢ２４と、ＲＧＢ３２と、Ｖ４１０と、Ｙ４１０と、Ｙ４２Ｔとから成る群から選択される色空間フォーマットにエンコードされる、請求項１５に記載の非一過性コンピュータ記憶媒体。
前記第２の表示出力のグラフィカル情報は、前記第１の表示出力のビデオ表示面積にわたって配置される前記１つ以上のオブジェクトのグラフィカルインジケーションを含む、請求項１５に記載の非一過性コンピュータ記憶媒体。