JP7128157B2 - 自動化されたオブジェクト識別のための画像処理 - Google Patents

自動化されたオブジェクト識別のための画像処理 Download PDF

Info

Publication number
JP7128157B2
JP7128157B2 JP2019143480A JP2019143480A JP7128157B2 JP 7128157 B2 JP7128157 B2 JP 7128157B2 JP 2019143480 A JP2019143480 A JP 2019143480A JP 2019143480 A JP2019143480 A JP 2019143480A JP 7128157 B2 JP7128157 B2 JP 7128157B2
Authority
JP
Japan
Prior art keywords
image
media
model
embedding
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019143480A
Other languages
English (en)
Other versions
JP2020047262A (ja
Inventor
ファイザル ザマン,エムディー
ラモス,ペリクルス
オヘイガン,シアン
Original Assignee
アクセンチュア グローバル ソリューションズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アクセンチュア グローバル ソリューションズ リミテッド filed Critical アクセンチュア グローバル ソリューションズ リミテッド
Publication of JP2020047262A publication Critical patent/JP2020047262A/ja
Application granted granted Critical
Publication of JP7128157B2 publication Critical patent/JP7128157B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本開示は、全般的に、自動化されたオブジェクト識別のための画像処理のため本開示は、全般的に、自動化されたオブジェクト識別のための画像処理のためのデバイスおよび方法に関する。のデバイスおよび方法に関する。
カメラ、ビデオカメラ、および/または同様のものなどの画像捕捉デバイスが、画像を捕捉するために使用されることがある。例として、ユーザデバイスは、ユーザの画像を捕捉するカメラを含むこともある。同じく、自律車両は、自律車両が運転している周囲状況のビデオを捕捉するビデオカメラを含むこともある。画像捕捉デバイスは、ユーザデバイスなどの処理デバイスに処理および/または利用のため画像を提供することもある。例として、ユーザデバイスは、ユーザデバイスのユーザのアイデンティティを判断するために顔認識手法を使用することもある。この事例において、ユーザデバイスはユーザの捕捉された画像を分析することに基づいて、ユーザデバイスのユーザが権限のあるユーザであると判断することができ、ユーザデバイスは、ユーザに対してユーザデバイスへのアクセスを可能にすることができる。同じく、自律車両の制御デバイスは、ビデオのフレームの分析に基づいて自律車両に対し閾値近さ以内のオブジェクトを識別することができ、オブジェクトを回避するために自律車両の方向および/または速度を制御することができる。
一部の可能な実装によれば、デバイスは、1つ以上のメモリと、画像を取得するために1つ以上のメモリに通信結合された1つ以上のプロセッサとを含んでもよい。1つ以上のプロセッサは、画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成してもよい。1つ以上のプロセッサは、候補画像のセットに基づき、且つ画像評価モデルを使用して、候補画像のセットのうちの候補画像1つ以上が、画像の解像度を改善するために、画像生成の間に画像生成モデルを使用して処理されたと判断してもよい。1つ以上のプロセッサは、デバイスは、1つ以上の候補画像について、画像に基づいて画像埋め込みを判断し、画像埋め込みおよび画像に基づいて、1つ以上の候補画像について埋め込み誤差を判断してもよい。1つ以上のプロセッサは、画像埋め込みおよび埋め込み誤差に基づいて画像の特徴の識別を判断してもよく、特徴の識別を判断することに基づいて、特徴の識別に関係するアクションを実行してもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサはさらに、別の画像に基づいて候補画像の別のセットを生成するために、更新された画像生成モデルを使用することと、候補画像の別のセットに基づいて別の画像の別の特徴の別の識別を判断することと、をしてもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサはさらに、別の画像に関係する別の1つ以上の候補画像を評価するために、更新された画像評価モデルを使用することと、別の1つ以上の候補画像に基づいて別の画像の別の特徴の別の識別を判断することと、をしてもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサはさらに、埋め込み誤差が閾値を満たさないと判断することと、埋め込み誤差が閾値を満たさないと判断することに基づき、別の画像埋め込みおよび別の埋め込み誤差を判断するために、画像埋め込みおよび埋め込み誤差の判断の結果を使用して画像生成および画像評価を反復することと、をしてもよく、1つ以上のプロセッサは、画像の特徴の識別を判断するとき、別の画像埋め込みおよび別の埋め込み誤差に基づいて画像の特徴の識別を判断する。
上記のデバイスの一部の可能な実装によれば、アクションは、自律車両が制御されることを生じさせることに関連してもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサは、特徴の識別に関係するアクションを実行するとき、特徴の識別に基づいて、別のデバイスの機能に変更を加えることに関係するコマンドを提供するために、別のデバイスと通信してもよい。
上記のデバイスの一部の可能な実装によれば、画像の特徴は、バイオメトリック特徴、オブジェクト、画像セグメント、またはメッセージのうちの少なくとも1つであってもよい。
上記のデバイスの一部の可能な実装によれば、画像評価モデルは、深層強化学習モデルであってもよい。
上記のデバイスの一部の可能な実装によれば、画像生成モデルは、敵対的生成ネットワーク(GAN:generative adversarial network)モデルであってもよい。
上記のデバイスの一部の可能な実装によれば、画像は、ビデオ記録の少なくとも1つのフレームであってもよい。
上記のデバイスの一部の可能な実装によれば、画像は、低解像度画像を含んでもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサは、1つ以上の候補画像が画像生成の間に画像生成モデルを使用して処理されたと画像評価モデルを使用して判断するとき、過去の高解像度画像のセットを受信することと、1つ以上の候補画像と、過去の高解像度画像とを比較することと、をしてもよい。
一部の可能な実装によれば、方法は、メディアの項目を取得するステップと、メディアの項目に基づき、且つメディア生成モデルを使用して、オブジェクト認識のための候補メディアのセットを生成するステップとを含んでもよい。本方法は、候補メディアのセットに基づき、且つメディア評価モデルを使用して、候補メディアのセットのうちの候補メディア1つ以上が、メディアの項目の特徴の品質を改善するために、メディア生成の間にメディア生成モデルを使用して処理されたと判断するステップを含んでもよい。本方法は、1つ以上の候補メディアについて、メディアの項目に基づいてメディア埋め込みを判断するステップと、メディア埋め込みおよびメディアの項目に基づいて1つ以上の候補メディアについて埋め込み誤差を判断するステップとを含んでもよい。本方法は、メディア埋め込みおよび埋め込み誤差に基づいてメディアの項目の特徴の識別を判断するステップと、特徴の識別を判断するステップに基づいて、特徴を識別する情報を提供するために別のデバイスと通信するステップとを含んでもよい。
上記の方法の一部の可能な実装によれば、メディアの項目は、画像、ビデオ記録、オーディオ記録、仮想現実表現、またはデータ表現のうちの少なくとも1つであってもよい。
上記の方法の一部の可能な実装によれば、特徴の品質は、解像度、シャープネス、またはコントラストのうちの少なくとも1つであってもよい。
上記の方法の一部の可能な実装によれば、特徴の識別を判断するステップは、同時位置測定地図作成(SLAM:simultaneous localization and mapping)オブジェクト検出手順を使用して特徴の識別を判断するステップを含んでもよい。
上記の方法の一部の可能な実装によれば、特徴の識別を判断するステップは、メディアの項目の中のオブジェクトを識別するステップを含んでもよい。
上記の方法の一部の可能な実装によれば、本方法は、特徴の識別に基づいてメディアの項目を分割するステップをさらに含んでもよく、特徴を識別する情報を提供するために別のデバイスと通信するステップは、メディアの項目を分割するステップに関係する情報を提供するステップをさらに含んでもよい。
上記の方法の一部の可能な実装によれば、メディアの項目を取得するステップは、メディアの項目の低解像度バージョンをリクエストするステップを含んでもよく、低解像度バージョンは、メディアの項目の他のバージョンと比べて削減されたファイルサイズを伴い、候補メディアのセットを生成するステップは、低解像度バージョンに基づいてメディアの項目の高解像度バージョンを少なくとも1つ生成するステップを含んでもよく、少なくとも1つの高解像度バージョンは、低解像度バージョンよりも大きなファイルサイズを伴う。
一部の可能な実装によれば、非一時的コンピュータ可読媒体は、デバイスの1つ以上のプロセッサにより実行されると1つ以上のプロセッサに、画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成させる、1つ以上の命令を含んだ命令を格納してもよく、候補画像のセットの中の各候補画像は、画像と比べて増大した画像解像度を伴う。1つ以上の命令は、1つ以上のプロセッサに、候補画像のセットについて、画像に基づいて画像埋め込みを判断することと、画像埋め込みの埋め込み誤差閾値が満たされると判断することとをさせてもよい。1つ以上の命令は、1つ以上のプロセッサに、画像埋め込みに基づき、且つ埋め込み誤差閾値が満たされていると判断することに基づいて、画像の特徴の識別を判断することと、特徴の識別を判断することに基づいて、画像の特徴を識別する情報を提供することとをさせてもよい。
上記の非一時的コンピュータ可読媒体の一部の可能な実装によれば、1つ以上の命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサにさらに、候補画像のセットを評価するために、強化学習に基づく画像評価モジュールを使用することと、候補画像のセットの評価に基づいて、解像度基準が満たされていると判断することと、をさせてもよく、1つ以上のプロセッサに画像埋め込みを判断させる1つ以上の命令は、1つ以上のプロセッサに、解像度基準が満たされていると判断することに基づいて、画像埋め込みを判断することをさせてもよい。
本願明細書に記載の例示の実装の図である。 本願明細書に記載の例示の実装の図である。 本願明細書に記載の例示の実装の図である。 本願明細書に記載されるシステムおよび/または方法が実装され得る例示の環境の図である。 図2の1つ以上のデバイスの例示のコンポーネントの図である。 オブジェクト認識を実行するために画像を処理する例示のプロセスのフローチャートである。 オブジェクト認識を実行するために画像を処理する例示のプロセスのフローチャートである。 オブジェクト認識を実行するために画像を処理する例示のプロセスのフローチャートである。
以下の例示の実装の詳細な説明は、添付の図面を参照する。異なる図面にある同じ参照番号は、同じまたは類似の要素を識別することがある。
画像捕捉デバイスおよび画像処理デバイスは、画像に対してオブジェクト認識を実行するために、それぞれ画像の捕捉および画像の処理をしてもよい。例として、ユーザデバイスは、画像を捕捉するカメラを含んでもよく、画像を処理して、画像の中の1人以上のユーザにタグ付けし、画像に対してバイオメトリックタイプの分類を実行し(例えば顔認識を実行してユーザデバイスをロック解除する)、さらに/または同様のことをしてもよい。同様に、自律車両の画像捕捉デバイスは、画像および/またはビデオを捕捉してもよく、画像および/またはビデオを処理して、オブジェクトを識別し、オブジェクトの識別に基づいてオブジェクトを回避するための制御コマンドを決定してもよい。さらに、ビデオ編集の間、ビデオ処理デバイスは、ビデオの中のオブジェクトを識別すること、オブジェクトの識別に基づいてビデオを分割すること、およびビデオを編集してオブジェクトの除去、オブジェクトの変更、オブジェクトの別のビデオへの挿入、および/または同様のことをすることを試行してもよい。同じく、オーディオ編集の間、オーディオ処理デバイスは、オーディオクリップの中の構成音を識別すること、構成音の識別に基づいてオーディオクリップを分割すること、オーディオを編集して構成音の除去、構成音の変更、構成音の別のオーディオクリップへの挿入、および/または同様のことをすることを試行してもよい。
しかしながら、一部の画像またはその他メディアは、低解像度、低光量、コントラストの不良、シャープネスの不良、および/または同様のものなどの画像品質の不良を伴うことがある。例として、ユーザデバイスは、サイズおよび/またはコストを削減するために安価なカメラを含む場合があり、このことが、顔認識を正確に実行するのに十分な画像品質を伴う画像をユーザデバイスが取得するのを妨げることもある。同じく、オブジェクトは、自律車両から閾値距離、離れて位置することもあり、このことが、オブジェクトのビデオの画像品質の不良をもたらし、それによって、自律車両がオブジェクトを識別することが妨げられることもある。この事例において、車両が閾値速度で移動すると、オブジェクトを識別するのに十分な画像品質を伴う閾値距離以内にオブジェクトがくるころには、車両には、オブジェクトを回避する十分な時間がないかもしれない。
本願明細書に記載される一部の実装は、オブジェクト識別のための画像処理を提供する。例として、オブジェクト識別プラットフォームは、画像の画像品質を向上させるために敵対的生成ネットワーク(GAN)手法を使用し、それによってオブジェクト認識手順の最適化を可能にし得る。さらに、オブジェクト識別プラットフォームは、深層強化学習を使用して、画像品質向上手順およびオブジェクト認識手順の最適化を自動化してもよい。このように、オブジェクト識別プラットフォームは、画像処理の他の手法と比べて画像処理のオブジェクト識別の精度を改善し得る。
さらに、オブジェクト認識のための自動化された画像品質向上を可能にすることに基づいて、オブジェクト識別プラットフォームは、他の手法を使用する場合よりも低品質の画像がオブジェクト認識に使用されることを可能にし、それによって、帯域幅リソース、ネットワークリソース、および/または同様のものの画像転送のための利用を、より高品質の画像を要求する他の手法を使用するのに比べて削減し得る。さらに、オブジェクト識別プラットフォームは、他の手法を使用する場合に比べてより低品質の画像の使用を可能にすることにより、画像処理に関連するデータストレージの要件を軽減し得る。さらに、画像処理におけるオブジェクト識別の精度の改善に基づいて、オブジェクト識別プラットフォームは、オブジェクト識別のバイオメトリック用途(例えば顔認識)に関する改善されたセキュリティ、オブジェクト識別の衝突回避用途(例えば自律車両ナビゲーション)に関する改善された安全性、および/または同様のものを可能にし得る。さらに、低品質画像におけるオブジェクト識別の精度の改善に基づいて、オブジェクト識別プラットフォームは、画像ファイルサイズの削減を可能にするために画像品質が低下させられた後でもオブジェクト識別の成功を可能にすることにより、改善された画像圧縮アルゴリズムを可能にし得る。
図1A~図1Cは、本願明細書に記載される例示の実装100の図である。図1Aに示されるように、例示の実装100は、第1の車両105-1(例えば自律車両)、第2の車両105-2、第1の車両105-1の画像捕捉デバイス110(例えばカメラ)、およびオブジェクト識別プラットフォーム115(例えばクラウドコンピューティング環境において提供される)を含む。
図1Aに、参照番号120によりさらに示されているように、第1の車両105-1の画像捕捉デバイス110は、オブジェクトの画像を捕捉してもよい。例として、画像捕捉デバイス110は、第2の車両105-2を表す画像を捕捉してもよい。一部の実装において、画像捕捉デバイス110は、静止画像を捕捉してもよい。例として、画像捕捉デバイス110は、静止画像を捕捉するカメラであってもよい。さらに、または代わりに、画像捕捉デバイス110は、ビデオ、オーディオ記録、3次元画像、仮想現実表現、または処理される別のタイプのデータなど、別のタイプのメディアを捕捉してもよい。一部の実装において、画像捕捉デバイス110は、リクエストに基づいて画像を捕捉してもよい。例としてオブジェクト識別プラットフォーム115は、オブジェクト識別プラットフォーム115がオブジェクト識別の実行に成功するように構成されている画像品質の閾値レベルを示してもよく、画像捕捉デバイス110が閾値レベルの画像品質(例えば低解像度画像であってもよい)を満たす画像を捕捉することをリクエストしてもよい。このようにして、オブジェクト識別プラットフォーム115は、画像を格納するためのメモリリソースの利用、真の画像を送信するためのネットワークリソースの利用、および/または同様のものを削減し得る。
一部の実装において、画像は、識別されるべき特定の特徴を含んでもよい。例として、画像捕捉デバイス110は、顔、掌紋、指紋、歩様、および/または同様のものなどのバイオメトリック特徴の画像を捕捉してもよい。さらに、または代わりに、画像捕捉デバイス110は、オブジェクトの画像を捕捉してもよい。さらに、または代わりに、画像捕捉デバイス110は、テキストメッセージ、数値メッセージ、および/または同様のものなどのメッセージの画像を捕捉してもよい。一部の実装において、画像捕捉デバイス110は、複数のオブジェクト、複数のバイオメトリック特徴、複数のメッセージ、および/または同様のものの画像を捕捉してもよい。
図1Aに、参照番号125によりさらに示されるように、画像捕捉デバイス110は、オブジェクト識別のための画像を提供してもよく、この画像は、真の画像と称されてもよい。例として、画像捕捉デバイス110は、第2の車両105-2を表す真の画像をオブジェクト識別プラットフォーム115に提供して、(例えば、第1の車両105-1が第2の車両105-2を回避できるようにするために)車両105-2が真の画像の中に表されているとオブジェクト識別プラットフォーム115が判断できるようにしてもよい。一部の実装において、オブジェクト識別プラットフォーム115は、特定の画像品質を伴う真の画像または別のメディアを取得してもよい。例としてオブジェクト識別プラットフォーム115は、真の画像の低品質バージョンをリクエストしてもよく、さらに受信してもよく、真の画像の低品質バージョンを処理してオブジェクト識別を実行し、それによってメモリリソース、ネットワークリソース、および/または同様のものの利用を、真の画像の高品質バージョン(例えば真の画像のファイルサイズがより大きいバージョン)を使用するのに比べて削減してもよい。一部の実装において、オブジェクト識別プラットフォーム115は、画像捕捉デバイス110により捕捉された情報の一部分を取得してもよい。例としてオブジェクト識別プラットフォーム115は、画像捕捉デバイス110により捕捉されたビデオのフレームを取得してもよく、ビデオのフレームに対してオブジェクト識別を実行してもよい。さらに、または代わりに、オブジェクト識別プラットフォーム115はビデオの複数のフレームを取得してもよく、ビデオを取得してもよく、さらに/または同様のことをして、オブジェクト識別を実行してもよい。
図1Bに、参照番号130により示されるように、真の画像を受信することに基づいて、オブジェクト識別プラットフォーム115の、敵対的生成ネットワーク(GAN)モデリング手法の生成器であってもよい画像生成モジュール135が、真の画像および画像生成モデルを使用して候補画像を生成してもよい。この事例において、候補画像は、真の画像と比べて画像品質が改善された、画像生成モデルを使用して生成された画像であってもよく、その結果、さらに詳しく後述されるように、真の画像に関するオブジェクト識別を実行できる。例として、オブジェクト識別プラットフォーム115は、画像生成モデルを使用して真の画像に変更を加えて、改善された画像品質特性を伴う少なくとも1つの候補画像を生成してもよい。この事例において、画像品質特性は、改善された画像解像度、コントラスト、シャープネス、明るさ、および/または同様のものを含んでもよい。
図1Bに、参照番号140によりさらに示されているように、候補画像を受信することに基づいて、オブジェクト識別プラットフォーム115の、GANモデリング手法のための判別器であってもよい画像評価モジュール145が、候補画像を評価して向上を確認してもよい。この事例において、画像評価モジュール145は、画像評価モデルを使用して、候補画像のうちの或る候補画像、または真の画像が、画像生成モジュール135により生成されたかどうかを判断しようと試行してもよく、これにより画像評価モジュール145は、候補画像が真の画像に比べて改善された画像品質を伴うと判断できてもよい。このように、画像評価モジュール145は、さらに詳しく後述されるように、真の画像と比べて画像品質が改善された候補画像を画像生成モジュール135が生成した(例えば候補画像が画像品質に関する閾値改善を満たす)ことを確認する。候補画像が改善された画像品質を伴うとの判断に基づいて、画像評価モジュール145は、候補画像および真の画像をオブジェクト識別のために提供してもよい。対照的に、候補画像が改善された画像品質を伴わないとの判断に基づいて、画像評価モジュール145は、画像生成モジュール135に、画像生成モデルの更新および別の候補画像の生成をさせてもよい。
図1Bに、参照番号150によりさらに示されているように、候補画像の評価に基づいて、オブジェクト識別プラットフォーム115のオブジェクト識別モジュール155は、候補画像および真の画像を使用してオブジェクト評価を実行してもよい。例としてオブジェクト識別モジュール155は、オブジェクト識別モデルを使用して、候補画像の中の1つ以上のオブジェクトなど、候補画像の1つ以上の特徴を識別してもよい。このように、オブジェクト識別モジュール155は、真の画像に基づいて生成された改善された品質の候補画像に対してオブジェクト評価を実行し、真の画像に対してオブジェクト評価を実行するのに比べて改善された、真の画像の特徴の判断を可能にする。
一部の実装において、オブジェクト識別プラットフォーム115は、オブジェクト評価の実行において使用されるオブジェクト識別モデルを生成してもよい。例として、オブジェクト識別プラットフォーム115は、データ獲得手順、データ前処理手順、および/またはモデル処理手順を実行して、オブジェクト識別モデルを生成してもよい。一部の実装において、オブジェクト識別プラットフォーム115は、画像データセットを取得してデータ獲得手順を実行してもよい。例として、オブジェクト識別プラットフォーム115は、数百、数千、数百万、または数十億の画像と、画像の特徴を識別する画像に関連するメタデータとを取得してもよい。一部の実装において、オブジェクト識別プラットフォーム115は、画像データセットを複数のデータセットに分割してデータ前処理手順を実行してもよい。例として、オブジェクト識別プラットフォーム115は、画像データセットを画像訓練データセット、画像試験データセット、画像検証データセット、および/または同様のものに分割してもよい。さらに、または代わりに、オブジェクト識別プラットフォーム115は、画像データセットから1つ以上のデータ点を除去してもよい。例として、オブジェクト識別プラットフォーム115は、画像データセットが家のセットの画像を含むと(例えばメタデータに基づいて)判断してもよく、顔認識を実行する(すなわち顔の特徴を識別する)オブジェクト識別モデルの訓練に使用される画像データセットから、家のセットの画像を除去することを決定してもよい。このように、オブジェクト識別プラットフォーム115は、画像識別モデルを使用して識別が行われることがない特徴の画像を使用して画像識別モデルを訓練するのと比べて、画像識別モデルの訓練に関連する処理リソースの利用を削減してもよい。
一部の実装において、オブジェクト識別プラットフォーム115は、例として、(例えばモデルを訓練するための訓練データとして)画像訓練データセットおよび(例えばモデルを試験するための試験データとして)画像試験データセットを使用して画像識別モデルを訓練してもよく、例として、(例えばモデルを検証するための検証データとして)画像検証データセットを使用して画像識別モデルを検証してもよい。この事例において、オブジェクト識別プラットフォーム115は、画像特徴に重みを割り当てて、画像の中の画像特徴へのラベル割り当てにおいて閾値レベルのモデリング精度を達成するように重みを反復して変更することにより、画像識別モデルを生成してもよい。例として、オブジェクト識別プラットフォーム115は、特徴のセットのグラフ表現を生成し、グラフ表現のノード間の多対多対応を判断するマッチングアルゴリズムの重みを決定し、且つ/または同様のことをして、特定の画像の特徴(例えば色、間隔、形、および/または同様のものなどの画素のセットの特性)と、特定の画像を記述するラベル(例えば特定の画像が自動車、顔、特定の人の顔、および/または同様のものを含むことを示すラベル)とをマッチングするモデルを生成してもよい。このように、オブジェクト識別プラットフォーム115は、候補画像を分析して真の画像の特徴を判断するのに使用する、画像識別モデルを生成する。
一部の実装において、オブジェクト識別プラットフォーム115は、画像識別モデルを使用して候補画像および真の画像の埋め込み値を判断してもよい。埋め込み値は、画像識別モデルを使用して計算された特定の画像の意味特徴に関して画像識別モデルにおける特定の画像の位置を表現してもよい。例として、オブジェクト識別プラットフォーム115は、画像識別モデルを使用して真の画像の第1の埋め込みを判断してもよく、画像識別モデルを使用して候補画像の第2の埋め込みを判断してもよい。一部の実装において、オブジェクト識別プラットフォーム115は、第1の埋め込みおよび第2の埋め込みについて埋め込み誤差を判断してもよい。例としてオブジェクト識別プラットフォーム115は、第1の埋め込みと第2の埋め込みとを比較して埋め込み誤差を判断してもよく、埋め込み誤差は、差または距離(例えばオブジェクト識別モデルのグラフ表現に関するグラフ距離)を表現し、第1の埋め込みと第2の埋め込みとの間の埋め込み距離と称されてもよい。このように、オブジェクト識別プラットフォーム115は、本願明細書にさらに詳細に記載されるように、画像識別モデルを使用して、真の画像に比べて候補画像において画像品質が変更されている程度を判断し、それによって、画像生成モデルおよび画像評価モデルのフィードバックループを可能にする。一部の実装において、オブジェクト識別プラットフォーム115は、過去の高解像度画像(例えば1つ以上の候補画像より高い解像度)のセットを受信してもよく、過去の高解像度画像のセットと1つ以上の候補画像とを画像評価モデルを使用して比較して、真の画像に比べて1つ以上の候補画像において画像品質が改善されているかどうかを判断してもよい。
図1Bに、参照番号160によりさらに示されるように、オブジェクト識別モジュール155は、オブジェクト評価に基づく誤差情報を画像生成モジュール135に提供して、画像生成モデルに関連する画像生成手順を更新してもよい。例としてオブジェクト識別プラットフォーム115は、画像生成モデルを更新するために、第1の埋め込み、第2の埋め込み、埋め込み誤差、および/または同様のものなどの埋め込み値を逆伝播させてもよい。この事例において、オブジェクト識別プラットフォーム115は、画像識別モデルを使用して候補画像の中のオブジェクトを識別するオブジェクト識別プラットフォーム115の能力に関して真の画像と比べ画像品質が改善された候補画像を生成するための学習を画像生成モデルにさせるための画像生成モデルに対する投入に、第1の埋め込みおよび第2の埋め込みを使用する。換言すれば、オブジェクト識別プラットフォーム115は、本願明細書に記載されるように、埋め込み値を入力として使用して、画像評価モデルを使用するオブジェクト識別プラットフォーム115を意図的に誤りに導くように画像生成モデルを使用するオブジェクト識別プラットフォーム115の能力を改善する。このように、誤差情報を使用した画像生成モデルの更新に基づいて、画像生成モデルは時間が経つにつれて改善され、それによって、オブジェクト識別プラットフォーム115により実行されるオブジェクト識別の精度が改善される。
図1Bに、参照番号165によりさらに示されるように、オブジェクト識別モジュール155は、オブジェクト評価に基づく誤差情報を画像評価モジュール145に提供して、画像評価モデルに関連する画像評価手順を更新してもよい。例として、埋め込み誤差が閾値未満である場合、オブジェクト識別プラットフォーム115は、画像評価モジュール145により使用される画像評価モデルに関連する強化学習のための逆報酬として埋め込み誤差を使用してもよい。この事例において、埋め込み誤差が閾値未満であることは、画像評価モジュール145が、候補画像における画像品質を画像生成モジュール135が真の画像と比べて改善したと誤って判断した(例えば、画像生成モジュール135が画像生成モデルを使用して、画像評価モデルを使用する画像評価モジュール145を意図的に誤りに導いた)ことを示してもよい。逆報酬の提供に基づいて、オブジェクト識別プラットフォーム115は、真の画像と候補画像とをより正確に区別するよう画像評価モデルを更新し、それによって、真の画像と比べて画像品質を改善しない候補画像を画像評価モジュール145が却下する可能性を改善し得る。画像評価モジュール145が真の画像に比べて画像品質を改善しない候補画像を却下する可能性を改善することに基づいて、オブジェクト識別プラットフォーム115は、画像生成モジュール135が真の画像と比べて画像品質を改善する候補画像を生成する可能性を増大させるフィードバックループを生じさせる。このように、誤差情報を使用した画像評価モデルの更新に基づいて、画像評価モデルは時間が経つにつれて改善され、それによって、画像生成モデルが改善され、オブジェクト識別プラットフォーム115により実行されるオブジェクト識別の精度が改善される。
一部の実装において、オブジェクト識別プラットフォーム115は、モデル事前訓練手順を実行して画像生成モデルおよび画像評価モデルを訓練してもよい。例として、画像生成モデルおよび画像評価モデルを使用して自律車両の制御に使用する候補画像を生成し候補画像を評価する前に、オブジェクト識別プラットフォーム115は、オブジェクト識別モデルに関して上述されたように画像データセットを取得してもよく、画像データセットに対してオブジェクト識別の実行を試行して、画像生成モデルおよび画像評価モデルを訓練するためのフィードバックとしての誤差情報を生成してもよい。この事例において、数千、数百万、または数十億の画像の画像データセットを取得するのに基づいて、オブジェクト識別プラットフォーム115は、人間の介入を用いないオブジェクト識別において使用される画像品質向上を自動的に訓練し、それによって、非常にリソース消費が多いであろうオブジェクト識別の成功の人間による確認および/または同様のことを要求することなく、画像品質に関して画像が正しく向上されているかどうかの人間による確認を要求するのに比べて、コンピューティングリソースの利用を削減し得る。
図1Bに、参照番号170によりさらに示されるように、オブジェクト識別モジュール155は、オブジェクト識別結果を選択的に提供してもよく、または画像生成を反復してもよい。例として、誤差値が閾値を満たさないことに基づいて(例えば誤差値が閾値以上である)、オブジェクト識別プラットフォーム115は、画像生成、画像評価、およびオブジェクト識別を反復してもよい。例として、オブジェクト識別プラットフォーム115は、更新された画像生成モデル(例えば誤差情報を使用して更新された)を使用して新たな候補画像を生成し、更新された画像評価モデル(例えば誤差情報を使用して更新された)を使用して新たな候補画像を評価し、オブジェクト識別モデルを使用して新たな候補画像の特徴を識別してもよい。さらに、または代わりに、誤差値が閾値を満たす(例えば誤差値が閾値未満である)ことに基づいて、オブジェクト識別プラットフォーム115は、オブジェクト識別モデルを使用して識別された真の画像の特徴を識別する情報を提供してもよい。
図1Cに、参照番号175により示されるように、オブジェクト識別プラットフォーム115は、オブジェクト識別結果に基づく応答アクションを実施してもよい。例として、オブジェクト識別プラットフォーム115は、真の画像の特徴を識別する(例えば車両105-1の閾値近さ以内に車両105-2が検出されたことを示す)ユーザインターフェースを提供してもよい。さらに、または代わりに、オブジェクト識別プラットフォーム115は、真の画像の特徴を回避するため(例えば車両105-2を回避するため)に車両105-1が制御されることを自動的に生じさせ、それによって、自律車両の安全および運転を改善してもよい。さらに、または代わりに、別のコンテキストにおいて、オブジェクト識別プラットフォーム115は、ユーザデバイスの権限あるユーザの顔として特徴を識別することに基づいて、ユーザデバイスをロック解除し、それによって、ユーザデバイスのセキュリティ動作および/または同様のものを改善してもよい。
さらに、または代わりに、オブジェクト識別プラットフォーム115は、識別された人物、識別された車両、および/または同様のものを特定の位置に到着したものとして識別する通知など、特徴に関連する通知を送信してもよい。さらに、または代わりに、オブジェクト識別プラットフォーム115は、或るメディアセグメントを送信してもよい。例として、画像編集のコンテキスト、ビデオ編集のコンテキスト、オーディオ編集のコンテキスト、および/または同様のものにおいて、オブジェクト識別プラットフォーム115は、メディア項目を自動的に編集して、特徴(例えばメディア項目の中で識別されるオブジェクト、音、および/または同様のもの)、背景(例えば識別された特徴に関連しないメディア項目の部分)、および/または同様のものを表現するレイヤを生成してもよい。このように、オブジェクト識別プラットフォーム115は、時間がかかり、誤差が発生しやすく、リソース消費が多い、人間の操作によるメディア内の特徴のタグ付け、メディア内のレイヤの生成、および/または同様のものを回避することにより、メディア編集に関連するコンピュータ処理の利用を削減してもよい。
このように、オブジェクト識別プラットフォーム115は、画像生成モデルおよび画像評価モデルをGANモデリング手法の敵対的モデルとして使用することにより、画像の特徴を識別するオブジェクト識別モジュール155の能力に関して画像品質を改善する。コンピュータ処理によるオブジェクト識別のためにGANモデリング手法を応用する結果として、一部の実装において候補画像は、視覚的に検査された場合、人間の目には、対応する真の画像と比べてより低い品質に見えるかもしれない。例として、GANモデリング手法の使用に基づく画像品質の改善は、人間の検査に関するものでなく、オブジェクト識別に関するものである。換言すれば、オブジェクト識別プラットフォーム115は、真の画像をぼかしてもよく、これは人間に対してはオブジェクトの識別をより困難にするであろうが、それによって、コンピュータ処理によるオブジェクト識別の精度は改善するかもしれず、コンピュータ処理によるオブジェクト識別を成功裏に完了するための処理の利用を削減し、コンピュータ処理によるオブジェクト識別が、削減されたネットワークトラフィックおよび/または削減されたメモリ利用および/または同様のものにより実行されることを可能にする。
上記で示したように、図1A~図1Cは、単なる例として提供される。他の例が可能であり、図1A~図1Cに関して記載されたものとは異なってもよい。
図2は、本願明細書に記載されるシステムおよび/または方法が実装され得る例示の環境200の図である。図2に示されるように、環境200は、画像捕捉デバイス210、オブジェクト識別プラットフォーム220、コンピューティングリソース225、クラウドコンピューティング環境230、およびネットワーク240を含んでもよい。環境200のデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して相互に接続してもよい。
画像捕捉デバイス210は、画像捕捉に関連する情報を受信、生成、格納、処理、および/または提供できる1つ以上のデバイスを含む。例として、画像捕捉デバイス210は、画像カメラ、画像センサ、ビデオカメラ、マイクロフォン、モバイル電話(例えばスマートフォン、無線電話など)、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、ゲームデバイス、ウェアラブル通信デバイス(例えばスマート腕時計、スマート眼鏡など)、または同様のタイプのデバイスを含んでもよい。一部の実装において、画像捕捉デバイス210は、画像に関連する画像データをオブジェクト識別プラットフォーム220に送信してもよい。一部の実装において、画像捕捉デバイス210は、真の画像に関連する画像データをオブジェクト識別プラットフォーム220に送信する前に画像に変更を加えてもよい。例として、画像捕捉デバイス210は、真の画像を圧縮してファイルサイズを削減し、それによって、ネットワークリソースおよび/または帯域幅リソースの利用を削減してもよく、圧縮された画像に関連する画像データをオブジェクト識別プラットフォーム220に送信してもよく、オブジェクト識別プラットフォーム220は、真の画像データを処理して、圧縮された画像に対してオブジェクト識別を実行してもよい。
オブジェクト識別プラットフォーム220は、画像を処理して真の画像に対してオブジェクト識別を実行するように割り当てられた、1つ以上のコンピューティングリソースを含む。例として、オブジェクト識別プラットフォーム220は、画像に含まれるオブジェクトを判断できる、クラウドコンピューティング環境230により実装されるプラットフォームであってもよく、ユーザデバイスをロック解除すること、自律車両を誘導すること、および/または同様のことに関連する制御コマンドを提供してもよい。一部の実装において、オブジェクト識別プラットフォーム220は、クラウドコンピューティング環境230のコンピューティングリソース225により実装される。
一部の実装において、オブジェクト識別プラットフォーム220は、具体的な必要性に応じて一定のソフトウェアコンポーネントの入れ替えが可能なように、モジュール式で設計されてもよい。よって、オブジェクト識別プラットフォーム220は、様々な用途のために容易且つ/または迅速に再構成され得る。一部の実装において、オブジェクト識別プラットフォーム220は、1つ以上の画像捕捉デバイス210から情報を受信し、且つ/または1つ以上の画像捕捉デバイス210へ情報を送信してもよい。特に、本願明細書に記載される実装は、オブジェクト識別プラットフォーム220がクラウドコンピューティング環境230においてホストされるものとして記載するが、一部の実装では、オブジェクト識別プラットフォーム220はクラウドベースでなくてもよく(すなわちクラウドコンピューティング環境外に実装されてもよい)、または部分的にクラウドベースとされてもよい。
クラウドコンピューティング環境230は、サービスとしてコンピュータ処理を提供する環境を含み、それによって共有リソース、サービスなどが、オブジェクト識別を実行するためなど、画像処理のために提供されてもよい。クラウドコンピューティング環境230は、サービスを提供するシステムおよび/またはデバイスの物理的な位置および構成についてエンドユーザの知識を要求しない、演算、ソフトウェア、データアクセス、ストレージおよび/または他のサービスを提供してもよい。示されるように、クラウドコンピューティング環境230は、オブジェクト識別プラットフォーム220およびコンピューティングリソース225を含んでもよい。
コンピューティングリソース225は、1つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、あるいは別のタイプの演算および/または通信デバイスを含む。一部の実装において、コンピューティングリソース225はオブジェクト識別プラットフォーム220をホストしてもよい。クラウドリソースは、コンピューティングリソース225において実行される演算インスタンス、コンピューティングリソース225内に設けられるストレージデバイス、コンピューティングリソース225により提供されるデータ転送デバイスなどを含んでもよい。一部の実装において、コンピューティングリソース225は、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して他のコンピューティングリソース225と通信してもよい。
図2にさらに示されるように、コンピューティングリソース225は、1つ以上のアプリケーション(「APP(application)」)225-1、1つ以上の仮想マシン(「VM(virtual machine)」)225-2、仮想化ストレージ(「VS(virtualized storage)」)225-3、1つ以上のハイパーバイザ(「HYP(hypervisor)」)225-4、または同様のものなどのクラウドリソースのグループを含んでもよい。
アプリケーション225-1は、画像捕捉デバイス210に提供されても、または画像捕捉デバイス210によりアクセスされてもよい1つ以上のソフトウェアアプリケーションを含む。アプリケーション225-1は、画像捕捉デバイス210上でソフトウェアアプリケーションをインストールして実行する必要性をなくしてもよい。例として、アプリケーション225-1は、オブジェクト識別プラットフォーム220に関連したソフトウェア、および/またはクラウドコンピューティング環境230を介して提供できる他の任意のソフトウェアを含んでもよい。一部の実装において、1つのアプリケーション225-1は、仮想マシン225-2を介して他の1つ以上のアプリケーション225-1との間で情報を送受信してもよい。
仮想マシン225-2は、物理マシンのようにプログラムを実行するマシン(例えばコンピュータ)のソフトウェア実装を含む。仮想マシン225-2は、用途、および仮想マシン225-2の任意の実マシンとの一致の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかとされ得る。システム仮想マシンは、完全なオペレーティングシステム(「OS(operating system)」)の実行をサポートする完全なシステムプラットフォームを提供してもよい。プロセス仮想マシンは、単一のプログラムを実行してもよく、単一のプロセスをサポートしてもよい。一部の実装において、仮想マシン225-2は、ユーザ(例えば画像捕捉デバイス210)の代わりに実行してもよく、データ管理、同期化、または長期データ転送など、クラウドコンピューティング環境230のインフラストラクチャの管理をしてもよい。
仮想化ストレージ225-3は、コンピューティングリソース225のストレージシステムまたはデバイスの中の仮想化手法を使用する1つ以上のストレージシステムおよび/または1つ以上のデバイスを含む。一部の実装において、ストレージシステムについて、仮想化のタイプはブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージからの論理ストレージの抽象化(または分離)を指してもよく、その結果、物理ストレージまたはヘテロジニアス構造とは無関係にストレージシステムがアクセスされ得る。この分離は、ストレージシステムの管理者がエンドユーザに対しどのようにストレージを管理するかの点で、柔軟性を管理者に認めてもよい。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に格納される場所との間の依存関係をなくし得る。これは、ストレージ使用の最適化、サーバ統合、および/または無停止ファイル移行の実行を可能にし得る。
ハイパーバイザ225-4は、複数のオペレーティングシステム(例えば「ゲストオペレーティングシステム」)がコンピューティングリソース225などのホストコンピュータ上で同時に実行できるようにするハードウェア仮想化手法を提供する。ハイパーバイザ225-4は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示してもよく、ゲストオペレーティングシステムの実行を管理してもよい。
様々なオペレーティングシステムの複数のインスタンスが、仮想化ハードウェアリソースを共有してもよい。
ネットワーク240は、1つ以上の有線ネットワークおよび/または無線ネットワークを含む。例として、ネットワーク240は、セルラネットワーク(例えばロングタームエボリューション(LTE:long-term evolution)ネットワーク、符号分割多元接続(CDMA:code division multiple access)ネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、別のタイプの次世代ネットワークなど)、公衆陸上モバイルネットワーク(PLMN:public land mobile network)、ローカルエリアネットワーク(LAN:local area network)、ワイドエリアネットワーク(WAN:wide area network)、メトロポリタンエリアネットワーク(MAN:metropolitan area network)、電話網(例えば公衆交換電話網(PSTN:Public Switched Telephone Network))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク、クラウドコンピューティングネットワーク、または同様のもの、および/またはこれらもしくはその他のタイプのネットワークの組み合わせを含んでもよい。
図2に示されたデバイスおよびネットワークの数および配置は、例として示されている。実際には、図2に示されたものに比べて、追加のデバイスおよび/またはネットワーク、より少数のデバイスおよび/またはネットワーク、異なるデバイスおよび/またはネットワーク、あるいは別様に配置されたデバイスおよび/またはネットワークがあってもよい。さらに、図2に示されている2つ以上のデバイスが単一のデバイス内に実装されてもよく、または、図2に示されている単一のデバイスが複数の分散型デバイスとして実装されてもよい。さらに、または代わりに、環境200のデバイスのセット(例えば1つ以上のデバイス)が、環境200のデバイスの別のセットにより実行されるものとして記載されている1つ以上の機能を実行してもよい。
図3は、デバイス300の例示のコンポーネントの図である。デバイス300は、画像捕捉デバイス210、オブジェクト識別プラットフォーム220、および/またはコンピューティングリソース225に対応し得る。一部の実装において、画像捕捉デバイス210、オブジェクト識別プラットフォーム220、および/またはコンピューティングリソース225は、1つ以上のデバイス300および/またはデバイス300の1つ以上のコンポーネントを含んでもよい。図3に示されるように、デバイス300は、バス310、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360、および通信インターフェース370を含んでもよい。
バス310は、デバイス300のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ320は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせにおいて実装される。プロセッサ320は、中央処理ユニット(CPU:central processing unit)、グラフィックス処理ユニット(GPU:graphics processing unit)、アクセラレーテッド処理ユニット(APU:accelerated processing unit)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、特定用途向け集積回路(ASIC:application-specific integrated circuit)、または別のタイプの処理コンポーネントである。一部の実装において、プロセッサ320は、機能を実行するようにプログラムされることが可能な1つ以上のプロセッサを含む。メモリ330は、プロセッサ320により使用される情報および/または命令を格納するランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read only memory)、および/または別のタイプの動的もしくは静的ストレージデバイス(例えばフラッシュメモリ、磁気メモリ、および/または光学メモリ)を含む。
ストレージコンポーネント340は、デバイス300の動作および使用に関係する情報および/またはソフトウェアを格納する。例としてストレージコンポーネント340は、ハードディスク(例えば磁気ディスク、光学ディスク、光磁気ディスク、および/またはソリッドステートディスク)、コンパクトディスク(CD:compact disc)、デジタル多用途ディスク(DVD:digital versatile disc)、フロッピーディスク、カートリッジ、磁気テープ、および/または別のタイプの非一時的コンピュータ可読媒体を、対応するドライブとともに含んでもよい。
入力コンポーネント350は、デバイス300がユーザ入力(例えばタッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および/またはマイクロフォン)などを介して情報を受信することを可能にするコンポーネントを含む。さらに、または代わりに、入力コンポーネント350は、情報を感知するセンサ(例えばグローバルポジショニングシステム(GPS:global positioning system)コンポーネント、加速度計、ジャイロスコープ、および/またはアクチュエータ)を含んでもよい。出力コンポーネント360は、デバイス300からの出力情報を提供するコンポーネント(例えばディスプレイ、スピーカ、および/または1つ以上の発光ダイオード(LED:light-emitting diode))を含む。
通信インターフェース370は、デバイス300が有線接続、無線接続、または有線接続と無線接続との組み合わせなどを介して他のデバイスと通信することを可能にする、トランシーバのようなコンポーネント(例えばトランシーバならびに/または別々の受信機および送信機)を含む。通信インターフェース370は、デバイス300が、別のデバイスから情報を受信し、且つ/または別のデバイスに情報を提供することを可能にしてもよい。例として通信インターフェース370は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF:radio frequency)インターフェース、ユニバーサルシリアルバス(USB:universal serial bus)インターフェース、Wi-Fiインターフェース、セルラネットワークインターフェース、または同様のものを含んでもよい。
デバイス300は、本願明細書に記載された1つ以上のプロセスを実行してもよい。デバイス300は、メモリ330および/またはストレージコンポーネント340などの非一時的コンピュータ可読媒体により格納されたソフトウェア命令をプロセッサ320が実行するのに基づいてこれらのプロセスを実行してもよい。本願明細書において、コンピュータ可読媒体は非一時的なメモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間、または複数の物理ストレージデバイスにまたがったメモリ空間を含む。
ソフトウェア命令は、メモリ330および/またはストレージコンポーネント340に別のコンピュータ可読媒体から、または通信インターフェース370を介して別のデバイスから読み込まれてもよい。メモリ330および/またはストレージコンポーネント340に格納されたソフトウェア命令は、実行されると本願明細書に記載された1つ以上のプロセスをプロセッサ320に実行させてもよい。さらに、または代わりに、本願明細書に記載の1つ以上のプロセスを実行するために、配線による回路構成がソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。したがって、本願明細書に記載された実装は、ハードウェア回路構成とソフトウェアとのいかなる特定の組み合わせにも限定されない。
図3に示されたコンポーネントの数および配置は、例として示されている。実際には、デバイス300は、図3に示されたものと比べて、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、または別様に配置されたコンポーネントを含んでもよい。さらに、または代わりに、デバイス300のコンポーネントのセット(例えば1つ以上のコンポーネント)が、デバイス300のコンポーネントの別のセットにより実行されるものとして記載されている1つ以上の機能を実行してもよい。
図4は、オブジェクト認識を実行するために画像を処理する例示のプロセス400のフローチャートである。一部の実装において、図4の1つ以上のプロセスブロックは、オブジェクト識別プラットフォーム(例えばオブジェクト識別プラットフォーム220)により実行されてもよい。一部の実装において、図4の1つ以上のプロセスブロックは、画像捕捉デバイス(例えば画像捕捉デバイス210)および/またはコンピューティングリソース(例えばコンピューティングリソース225)など、オブジェクト識別プラットフォーム(例えばオブジェクト識別プラットフォーム220)とは独立した、またはそれを含む別のデバイスまたはデバイスのグループにより実行されてもよい。
図4に示されているように、プロセス400は、画像を取得することを含んでもよい(ブロック410)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、通信インターフェース370、および/または同様のものを使用する)は、画像を取得してもよい。
図4にさらに示されているように、プロセス400は、画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成することを含んでもよい(ブロック420)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成してもよい。
図4にさらに示されているように、プロセス400は、候補画像のセットに基づき、且つ画像評価モデルを使用して、候補画像のセットのうちの候補画像1つ以上が、画像の解像度を改善するために、画像生成の間に画像生成モデルを使用して処理されたと判断することを含んでもよい(ブロック430)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、候補画像のセットに基づき、且つ画像評価モデルを使用して、候補画像のセットのうちの候補画像1つ以上が、画像の解像度を改善するために、画像生成の間に画像生成モデルを使用して処理されたと判断してもよい。
図4にさらに示されているように、プロセス400は、1つ以上の候補画像について、画像に基づいて、画像埋め込みを判断することを含んでもよい(ブロック440)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、1つ以上の候補画像について、画像に基づいて、画像埋め込みを判断してもよい。
図4にさらに示されているように、プロセス400は、画像埋め込みおよび画像に基づいて、1つ以上の候補画像について埋め込み誤差を判断することを含んでもよい(ブロック450)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、画像埋め込みおよび画像に基づいて、1つ以上の候補画像について埋め込み誤差を判断してもよい。
図4にさらに示されているように、プロセス400は、画像埋め込みおよび埋め込み誤差に基づいて、画像の特徴の識別を判断することを含んでもよい(ブロック460)。
例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、画像埋め込みおよび埋め込み誤差に基づいて、画像の特徴の識別を判断してもよい。
図4にさらに示されているように、プロセス400は、後の画像生成のために更新された画像生成モデルを生成するために、画像生成モデルに埋め込み誤差を逆伝播させることを含んでもよい(ブロック470)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、後の画像生成のための更新された画像生成モデルを生成するために、埋め込み誤差を画像生成モデルに逆伝播させてもよい。
図4にさらに示されているように、プロセス400は、後の画像評価のために更新された画像評価モデルを生成するために、画像評価モデルに画像の特徴の識別を逆伝播させることを含んでもよい(ブロック480)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、後の画像評価のための更新された画像評価モデルを生成するために、画像の特徴の識別を画像評価モデルに逆伝播させてもよい。
図4にさらに示されているように、プロセス400は、特徴の識別を判断することに基づいて、特徴の識別に関係するアクションを実行することを含んでもよい(ブロック490)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、特徴の識別を判断することに基づいて、特徴の識別に関係するアクションを実行してもよい。
プロセス400は、後述されさらに/または本願明細書の他の箇所に記載される1つ以上の他のプロセスに関連して記載される、任意の単一の実装または複数の実装の任意の組み合わせなどの追加の実装を含んでもよい。
一部の実装において、オブジェクト識別プラットフォームは、更新された画像生成モデルを使用して別の画像に基づく候補画像の別のセットを生成してもよく、候補画像の別のセットに基づいて、別の画像の別の特徴の別の識別を判断してもよい。
一部の実装において、オブジェクト識別プラットフォームは、更新された画像評価モデルを使用して別の画像に関係する別の1つ以上の候補画像を評価してもよく、別の1つ以上の候補画像に基づいて、別の画像の別の特徴の別の識別を判断してもよい。
一部の実装において、オブジェクト識別プラットフォームは、埋め込み誤差が閾値を満たさないと判断してもよく、埋め込み誤差が閾値を満たさないとの判断に基づき、別の画像埋め込みおよび別の埋め込み誤差を判断するために、画像埋め込みおよび埋め込み誤差の判断の結果を使用して画像生成および画像評価を反復してもよい。一部の実装において、画像の特徴の識別を判断するとき、オブジェクト識別プラットフォームは、別の画像埋め込みおよび別の埋め込み誤差に基づいて画像の特徴の識別を判断してもよい。
一部の実装において、アクションは、自律車両が制御されることを生じさせることに関連してもよい。一部の実装において、特徴の識別に関係するアクションを実行するとき、オブジェクト識別プラットフォームは、特徴の識別に基づいて別のデバイスの機能に変更を加えることに関係するコマンドを提供するために、別のデバイスと通信してもよい。
一部の実装において、画像の特徴は、バイオメトリック特徴、オブジェクト、画像セグメント、および/またはメッセージとされてもよい。一部の実装において、画像評価モデルは、深層強化学習モデルであってもよい。一部の実装において、画像生成モデルは、敵対的生成ネットワーク(GAN)モデルであってもよい。一部の実装において、画像は、ビデオ記録の少なくとも1つのフレームであってもよい。一部の実装において、画像は、低解像度画像を含む。一部の実装において、オブジェクト識別プラットフォームは、過去の高解像度画像のセットを受信してもよく、1つ以上の候補画像と、過去の高解像度画像とを比較してもよい。
図4はプロセス400の例示のブロックを示すが、一部の実装ではプロセス400は、図4に示されたものに比べて追加のブロック、より少ないブロック、異なるブロック、または別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス400のブロックのうちの2つ以上が並列実行されてもよい。
図5は、オブジェクト認識を実行するために画像を処理する例示のプロセス500のフローチャートである。一部の実装において、図5の1つ以上のプロセスブロックは、オブジェクト識別プラットフォーム(例えばオブジェクト識別プラットフォーム220)により実行されてもよい。一部の実装において、図5の1つ以上のプロセスブロックは、画像捕捉デバイス(例えば画像捕捉デバイス210)および/またはコンピューティングリソース(例えばコンピューティングリソース225)など、オブジェクト識別プラットフォーム(例えばオブジェクト識別プラットフォーム220)とは独立した、またはそれを含む別のデバイスまたはデバイスのグループにより実行されてもよい。
図5に示されているように、プロセス500は、メディアの項目を取得することを含んでもよい(ブロック510)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、通信インターフェース370、および/または同様のものを使用する)は、メディアの項目を取得してもよい。
図5にさらに示されるように、プロセス500は、メディアの項目に基づき、且つメディア生成モデルを使用して、オブジェクト認識のための候補メディアのセットを生成することを含んでもよい(ブロック520)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、メディアの項目に基づき、且つメディア生成モデルを使用して、オブジェクト認識のための候補メディアのセットを生成してもよい。
図5にさらに示されているように、プロセス500は、候補メディアのセットに基づき、且つメディア評価モデルを使用して、候補メディアのセットのうちの候補メディア1つ以上が、メディアの項目の特徴の品質を改善するために、メディア生成の間にメディア生成モデルを使用して処理されたと判断することを含んでもよい(ブロック530)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、候補メディアのセットに基づき、且つメディア評価モデルを使用して、候補メディアのセットのうちの候補メディア1つ以上が、メディアの項目の特徴の品質を改善するために、メディア生成の間にメディア生成モデルを使用して処理されたと判断してもよい。
図5にさらに示されているように、プロセス500は、1つ以上の候補メディアについて、メディアの項目に基づいて、メディア埋め込みを判断することを含んでもよい(ブロック540)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、1つ以上の候補メディアについて、メディアの項目に基づいて、メディア埋め込みを判断してもよい。
図5にさらに示されているように、プロセス500は、メディア埋め込みおよびメディアの項目に基づいて、1つ以上の候補メディアについて埋め込み誤差を判断することを含んでもよい(ブロック550)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、メディア埋め込みおよびメディアの項目に基づいて、1つ以上の候補メディアについて埋め込み誤差を判断してもよい。
図5にさらに示されているように、プロセス500は、メディア埋め込みおよび埋め込み誤差に基づいて、メディアの項目の特徴の識別を判断することを含んでもよい(ブロック560)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、メディア埋め込みおよび埋め込み誤差に基づいて、メディアの項目の特徴の識別を判断してもよい。
図5にさらに示されているように、プロセス500は、特徴の識別を判断することに基づいて、特徴を識別する情報を提供するために別のデバイスと通信することを含んでもよい(ブロック570)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、特徴の識別を判断することに基づいて、特徴を識別する情報を提供するために別のデバイスと通信してもよい。
プロセス500は、後述されさらに/または本願明細書の他の箇所に記載される1つ以上の他のプロセスに関連して記載される、任意の単一の実装または複数の実装の任意の組み合わせなどの追加の実装を含んでもよい。
一部の実装において、メディアの項目は、画像、ビデオ記録、オーディオ記録、仮想現実表現、および/またはデータ表現であってもよい。一部の実装において、特徴の品質は、解像度、シャープネス、および/またはコントラストであってもよい。一部の実装において、オブジェクト識別プラットフォームは、同時位置測定地図作成(SLAM)オブジェクト検出手順を使用して特徴の識別を判断してもよい。一部の実装において、オブジェクト識別プラットフォームは、メディアの項目の中のオブジェクトを識別してもよい。
一部の実装において、オブジェクト識別プラットフォームは、特徴の識別に基づいてメディアの項目を分割してもよい。一部の実装において、特徴を識別する情報を提供するために別のデバイスと通信するとき、オブジェクト識別プラットフォームは、メディアの項目の分割に関係する情報を提供してもよい。
一部の実装において、メディアの項目を取得するとき、オブジェクト識別プラットフォームは、メディアの項目の低解像度バージョンをリクエストしてもよい。一部の実装において、低解像度バージョンは、他のバージョンのメディアの項目と比べて削減されたファイルサイズを伴ってもよく、候補メディアのセットを生成するとき、オブジェクト識別プラットフォームは、低解像度バージョンに基づいて、メディアの項目の高解像度バージョンを少なくとも1つ生成してもよい。一部の実装において、少なくとも1つの高解像度バージョンは、低解像度バージョンよりも大きなファイルサイズを伴ってもよい。
図5はプロセス400の例示のブロックを示すが、一部の実装ではプロセス500は、図5に示されたものに比べて追加のブロック、より少ないブロック、異なるブロック、または別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス500のブロックのうちの2つ以上が並列実行されてもよい。
図6は、オブジェクト認識を実行するために画像を処理する例示のプロセス600のフローチャートである。一部の実装において、図6の1つ以上のプロセスブロックは、オブジェクト識別プラットフォーム(例えばオブジェクト識別プラットフォーム220)により実行されてもよい。一部の実装において、図6の1つ以上のプロセスブロックは、画像捕捉デバイス(例えば画像捕捉デバイス210)および/またはコンピューティングリソース(例えばコンピューティングリソース225)など、オブジェクト識別プラットフォーム(例えばオブジェクト識別プラットフォーム220)とは独立した、またはそれを含む別のデバイスまたはデバイスのグループにより実行されてもよい。
図6に示されているように、プロセス600は、画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成することを含んでもよく、候補画像のセットの中の各候補画像は、画像と比べて増大した画像解像度を伴う(ブロック610)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成してもよい。一部の実装において、候補画像のセットの中の各候補画像は、画像と比べて増大した画像解像度を伴ってもよい。
図6にさらに示されているように、プロセス600は、候補画像のセットについて、画像に基づいて、画像埋め込みを判断することを含んでもよい(ブロック620)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、候補画像のセットについて、画像に基づいて、画像埋め込みを判断してもよい。
図6にさらに示されているように、プロセス600は、画像埋め込みの埋め込み誤差閾値が満たされていると判断することを含んでもよい(ブロック630)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、画像埋め込みの埋め込み誤差閾値が満たされていると判断してもよい。
図6にさらに示されているように、プロセス600は、画像埋め込みに基づき、且つ埋め込み誤差閾値が満たされていると判断することに基づいて、画像の特徴の識別を判断することを含んでもよい(ブロック640)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、および/または同様のものを使用する)は、画像埋め込みに基づき、且つ埋め込み誤差閾値が満たされていると判断することに基づいて、画像の特徴の識別を判断してもよい。
図6にさらに示されているように、プロセス600は、特徴の識別を判断することに基づいて、画像の特徴を識別する情報を提供することを含んでもよい(ブロック650)。例として、図1A~図1Cに関連して上述されたように、オブジェクト識別プラットフォーム(例えばコンピューティングリソース225、プロセッサ320、メモリ330、ストレージコンポーネント340、出力コンポーネント360、通信インターフェース370、および/または同様のものを使用する)は、画像の特徴の識別を判断することに基づいて、特徴を識別する情報を提供してもよい。
プロセス600は、後述されさらに/または本願明細書の他の箇所に記載される1つ以上の他のプロセスに関連して記載される、任意の単一の実装または複数の実装の任意の組み合わせなどの追加の実装を含んでもよい。
一部の実装において、オブジェクト識別プラットフォームは、候補画像のセットを評価するために強化学習に基づく画像評価モジュールを使用してもよく、候補画像のセットの評価に基づいて、解像度基準が満たされると判断してもよい。一部の実装において、画像埋め込みを判断するとき、オブジェクト識別プラットフォームは、1つ以上のプロセッサに、解像度基準が満たされるとの判断に基づいて画像埋め込みを判断させてもよい。一部の実装において、画像はビデオであってもよく、候補画像のセットはビデオのフレームのセットであってもよい。
図6はプロセス600の例示のブロックを示すが、一部の実装ではプロセス600は、図6に示されたものに比べて追加のブロック、より少ないブロック、異なるブロック、または別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス600のブロックのうちの2つ以上が並列実行されてもよい。
本願明細書に記載される一部の実装は、オブジェクト識別のための画像処理を提供する。例として、オブジェクト識別プラットフォーム220は、画像の画像品質を向上させるために敵対的生成ネットワーク(GAN)手法を使用し、それによってオブジェクト認識手順の最適化を可能にし得る。さらに、オブジェクト識別プラットフォーム220は、深層強化学習を使用して、画像品質向上手順およびオブジェクト認識手順の最適化を自動化してもよい。このように、オブジェクト識別プラットフォーム220は、画像処理の他の手法と比べて画像処理のオブジェクト識別の精度を改善し得る。
さらに、オブジェクト認識のための自動化された画像品質向上を可能にすることに基づいて、オブジェクト識別プラットフォーム220は、他の手法を使用する場合よりも低品質の画像がオブジェクト認識に使用されることを可能にし、それによって、帯域幅リソース、ネットワークリソース、および/または同様のものの画像転送のための利用を、より高品質の画像を要求する他の手法を使用するのに比べて削減してもよい。さらに、オブジェクト識別プラットフォーム220は、他の手法を使用する場合に比べてより低品質の画像の使用を可能にすることにより、画像処理に関連するデータストレージの要件を軽減し得る。さらに、画像処理におけるオブジェクト識別の精度の改善に基づいて、オブジェクト識別プラットフォーム220は、オブジェクト識別のバイオメトリック用途(例えば顔認識)に関する改善されたセキュリティ、オブジェクト識別の衝突回避用途に関する改善された安全性(例えば自律車両ナビゲーション)、および/または同様のものを可能にし得る。さらに、低品質画像におけるオブジェクト識別の精度の改善に基づいて、オブジェクト識別プラットフォーム220は、画像ファイルサイズの削減を可能にするために画像品質が低下させられた後でもオブジェクト識別の成功を可能にすることにより、改善された画像圧縮アルゴリズムを可能にし得る。
前述の開示は、例示および説明を提供するが、網羅的であることも、実装を開示された厳密な形態に限定することも意図していない。上記の開示を考慮して変更および変形が可能であり、または実装の実施から習得されるかもしれない。
本願明細書で使用されるとき、コンポーネントという用語は、ハードウェア、ファームウェア、および/またはハードウェアとソフトウェアとの組み合わせとして広く解釈されるよう意図される。
一部の実装は、閾値に関連して本願明細書に記載された。本願明細書で使用されるとき、閾値を満たすとは、値が閾値より大きいこと、閾値を超えること、閾値より高いこと、閾値以上であること、閾値未満であること、閾値より少ないこと、閾値より低いこと、閾値以下であること、閾値と等しいこと、または同様のことを指すことができる。
当然のことながら、本願明細書に記載されたシステムおよび/または方法は、異なる形態のハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせに実装されてもよい。これらのシステムおよび/または方法を実装するために使用される実際の専用制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本願明細書に記載されたが、当然のことながら、ソフトウェアおよびハードウェアを、本願明細書の記載に基づきシステムおよび/または方法を実装するよう設計できる。
特徴の特定の組み合わせが特許請求の範囲に記載され且つ/または明細書で開示されるが、これらの組み合わせは可能な実装の開示を限定することを意図されたものではない。実際には、これらの特徴の多くが、具体的に特許請求の範囲に記載および/または明細書に開示されなかった形で組み合わされてもよい。列挙される各従属クレームは、1つのみのクレームに直接従属するかもしれないが、考えられる実装の開示には、クレームセットの中の他のすべてのクレームと組み合わせた各従属クレームが含まれる。
本願明細書で使用されるいずれの要素、動作、または命令も、重要または必須とは、そのように明示的に記載されない限りは解釈されてはならない。さらに、本願明細書で使用されるとき、冠詞「或る(aおよびan)」は、1つ以上の項目を含むよう意図され、「1つ以上の(one or more)」と交換可能なように使用され得る。さらに、本願明細書で使用されるとき、「セット(set)」という用語は、1つ以上の項目(例えば関係する項目、無関係の項目、関係する項目と無関係の項目との組み合わせなど)を含むよう意図され、「1つ以上の(one or more)」と交換可能なように使用され得る。1つのみの項目が意図される場合、「1つの(one)」という用語または同様の文言が使用される。さらに、本願明細書で使用されるとき、「有する(has、have、having)」という用語または同様のものは、非限定的な用語であるものと意図される。さらに、「基づく(based on)」という語句は、別段の記載が明示的にされない限り「少なくとも部分的に基づく(based,at least in part,on)」を意味するよう意図される。

Claims (20)

  1. 1つ以上のメモリと、
    前記1つ以上のメモリに通信結合され、
    画像を取得すること、
    前記取得した画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成することであって、前記候補画像のセットは、前記取得した画像に比べて改善された品質を有し、前記画像生成モデルは、敵対的生成ネットワーク(GAN)モデルである、前記候補画像のセットを生成すること、
    前記候補画像のセットに基づき、且つ画像評価モデルを使用して、前記候補画像のセットのうちの候補画像1つ以上が、前記画像の解像度を改善するために、画像生成の間に前記画像生成モデルを使用して処理されたと判断することであって、前記画像評価モデルは、前記画像生成モデルのための判別器である深層強化学習モデルである、前記画像生成モデルを使用して処理されたと判断すること、
    画像識別モデルにより、前記取得した画像についての第1の埋め込みおよび前記1つ以上の候補画像についての第2の埋め込みを判断することであって、埋め込み値は、前記画像識別モデルを使用して計算された、特定の画像の意味特徴に関しての前記画像識別モデルにおける特定の画像の位置を表すことを特徴とする、前記埋め込み値を判断することと
    前記第1の埋め込みと前記第2の埋め込みとを比較することにより、前記1つ以上の候補画像について埋め込み誤差を判断することであって、埋め込み誤差は、前記画像識別モデルのグラフ表現に関するグラフ距離を表すことを特徴とする、前記埋め込み誤差を判断することと
    前記第1および第2の埋め込みならびに前記埋め込み誤差に基づいて、前記画像識別モデルにより、前記取得した画像の特徴の識別を判断すること、
    後の画像生成のために更新された画像生成モデルを生成するために、前記画像生成モデルに前記埋め込み誤差を逆伝播させること、
    後の画像評価のために更新された画像評価モデルを生成するために、前記画像評価モデルに前記取得した画像の前記特徴の前記識別を逆伝播させること、ならびに
    前記特徴の前記識別を判断することに基づいて、前記特徴の前記識別に関係するアクションを実行すること、
    をする1つ以上のプロセッサと、
    を含むデバイス。
  2. 前記1つ以上のプロセッサは、
    別の画像に基づいて候補画像の別のセットを生成するために、前記更新された画像生成モデルを使用することと、
    前記候補画像の別のセットに基づいて前記別の画像の別の特徴の別の識別を判断することと、
    をさらにする、請求項1に記載のデバイス。
  3. 前記1つ以上のプロセッサは、
    別の画像に関係する別の1つ以上の候補画像を評価するために、前記更新された画像評価モデルを使用することと、
    前記別の1つ以上の候補画像に基づいて前記別の画像の別の特徴の別の識別を判断することと、
    をさらにする、請求項1に記載のデバイス。
  4. 前記1つ以上のプロセッサは、
    前記埋め込み誤差が閾値を満たさないと判断することと、
    前記埋め込み誤差が前記閾値を満たさないと判断することに基づき、前記取得した画像についての第3の埋め込みおよび前記1つ以上の候補画像についての第4の埋め込みを判断し、且つ前記第3の埋め込みと前記第4の埋め込みとを比較することにより前記1つ以上の候補画像について別の埋め込み誤差を判断するために、前記第1および第2の埋め込みならびに前記埋め込み誤差の判断の結果を使用して画像生成および画像評価を反復することと、
    をさらにし、
    前記1つ以上のプロセッサは、前記取得した画像の前記特徴の前記識別を判断するとき、
    前記第3および第4の埋め込みならびに前記別の埋め込み誤差に基づいて前記画像の前記特徴の前記識別を判断する、請求項1に記載のデバイス。
  5. 前記アクションは、自律車両が制御されることを生じさせることに関連する、請求項1に記載のデバイス。
  6. 前記1つ以上のプロセッサは、前記特徴の前記識別に関係する前記アクションを実行するとき、
    前記特徴の前記識別に基づいて、別のデバイスの機能に変更を加えることに関係するコマンドを提供するために、前記別のデバイスと通信すること
    をする、請求項1に記載のデバイス。
  7. 前記画像の前記特徴は、
    バイオメトリック特徴、
    オブジェクト、
    画像セグメント、または
    メッセージ
    のうちの少なくとも1つである、請求項1に記載のデバイス。
  8. 前記取得した画像は、ビデオ記録の少なくとも1つのフレームである、請求項1に記載のデバイス。
  9. 前記取得した画像は、低解像度画像を含む、請求項1に記載のデバイス。
  10. 前記1つ以上のプロセッサは、前記1つ以上の候補画像が画像生成の間に前記画像生成モデルを使用して処理されたと、前記画像評価モデルを使用して判断するとき、
    過去の高解像度画像のセットを受信することと、
    前記1つ以上の候補画像と、前記過去の高解像度画像とを比較することと、
    をする、請求項1に記載のデバイス。
  11. デバイスによって、メディアの項目を取得するステップと、
    前記デバイスによって、前記取得したメディアの項目に基づき、且つメディア生成モデルを使用して、オブジェクト認識のための候補メディアのセットを生成するステップであって、前記候補メディアのセットは、前記取得したメディアの項目に比べて改善された品質を有し、前記メディア生成モデルは、敵対的生成ネットワーク(GAN)モデルである、前記候補メディアのセットを生成するステップと、
    前記デバイスによって、前記候補メディアのセットに基づき、且つメディア評価モデルを使用して、前記候補メディアのセットのうちの候補メディア1つ以上が、前記メディアの項目の特徴の品質を改善するために、メディア生成の間に前記メディア生成モデルを使用して処理されたと判断するステップあって、前記メディア評価モデルは、前記メディア生成モデルのための判別器である深層強化学習モデルである、前記メディア生成モデルを使用して処理されたと判断するステップと、
    前記デバイスによって、およびメディア識別モデルにより、前記取得したメディアの項目についての第1の埋め込みおよび前記1つ以上の候補メディアについての第2の埋め込みを判断するステップであって、埋め込み値は、前記メディア識別モデルを使用して計算された、特定のメディアの意味特徴に関しての前記メディア識別モデルにおける特定のメディアの位置を表すことを特徴とする、前記埋め込み値を判断するステップと
    前記デバイスによって、前記第1の埋め込みと前記第2の埋め込みとを比較することにより、前記1つ以上の候補メディアについて埋め込み誤差を判断するステップであって、埋め込み誤差は、前記メディア識別モデルのグラフ表現に関するグラフ距離を表すことを特徴とする、前記埋め込み誤差を判断するステップと
    前記デバイスによって、前記第1および第2の埋め込み値ならびに前記埋め込み誤差に基づいて、前記メディア識別モデルにより、前記取得したメディアの項目の前記特徴の識別を判断するステップと、
    後のメディア生成のために更新されたメディア生成モデルを生成するために、前記メディア生成モデルに前記埋め込み誤差を逆伝播させるステップと、
    後のメディア評価のために更新されたメディア評価モデルを生成するために、前記メディア評価モデルに前記取得したメディアの項目の前記特徴の前記識別を逆伝播させるステップと、
    前記特徴の前記識別を判断するステップに基づいて、前記特徴を識別する情報を提供するために前記デバイスによって別のデバイスと通信するステップと、
    を含む方法。
  12. 前記取得したメディアの項目は、
    画像、
    ビデオ記録、
    オーディオ記録、
    仮想現実表現、または
    データ表現
    のうちの少なくとも1つである、請求項11に記載の方法。
  13. 前記特徴の前記品質は、
    解像度、
    シャープネス、または
    コントラスト
    のうちの少なくとも1つである、請求項11に記載の方法。
  14. 前記特徴の前記識別を判断するステップは、
    同時位置測定地図作成(SLAM)オブジェクト検出手順を使用して前記特徴の前記識別を判断するステップ
    を含む、請求項11に記載の方法。
  15. 前記特徴の前記識別を判断するステップは、
    前記取得したメディアの項目の中のオブジェクトを識別するステップ
    を含む、請求項11に記載の方法。
  16. 前記方法は、
    前記特徴の前記識別に基づいて前記取得したメディアの項目を分割するステップ
    をさらに含み、
    前記特徴を識別する情報を提供するために前記別のデバイスと通信するステップは、
    前記取得したメディアの項目を分割するステップに関係する情報を提供するステップ
    を含む、請求項11に記載の方法。
  17. 前記メディアの項目を取得するステップは、
    前記メディアの項目の低解像度バージョンをリクエストするステップ
    を含み、
    前記低解像度バージョンは、前記メディアの項目の他のバージョンと比べて削減されたファイルサイズを伴い、
    前記候補メディアのセットを生成するステップは、
    前記低解像度バージョンに基づいて前記取得したメディアの項目の高解像度バージョンを少なくとも1つ生成するステップ
    を含み、
    前記少なくとも1つの高解像度バージョンは、前記低解像度バージョンよりも大きなファイルサイズを伴う、請求項11に記載の方法。
  18. 命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、
    1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    画像に基づき、且つ画像生成モデルを使用して、オブジェクト認識のための候補画像のセットを生成することであって、
    前記候補画像のセットの中の各候補画像は、前記画像と比べて増大した画像解像度を伴い、前記画像生成モデルは、敵対的生成ネットワーク(GAN)モデルである、
    前記生成することと、
    前記候補画像のセットに基づき、且つ画像評価モデルを使用して、前記候補画像のセットのうちの候補画像1つ以上が、前記画像の解像度を改善するために、画像生成の間に前記画像生成モデルを使用して処理されたと判断することであって、前記画像評価モデルは、前記画像生成モデルのための判別器である深層強化学習モデルである、前記画像生成モデルを使用して処理されたと判別することと、
    画像識別モデルにより、前記画像についての第1の埋め込みおよび前記候補画像のセットについての第2の埋め込みを判断することとであって、埋め込み値は、前記画像識別モデルを使用して計算された、特定の画像の意味特徴に関しての前記画像識別モデルにおける特定の画像の位置を表すことを特徴とする、前記埋め込み値を判断することと
    前記第1の埋め込みと前記第2の埋め込みとを比較することにより、前記1つ以上の候補画像について埋め込み誤差を判断することであって、埋め込み誤差は、前記画像識別モデルのグラフ表現に関するグラフ距離を表すことを特徴とする、前記埋め込み誤差を判断することと
    前記第1および第2の埋め込みならび前記埋め込み誤差に基づいて、前記画像識別モデルにより、前記画像の特徴の識別を判断することと、
    後の画像生成のために更新された画像生成モデルを生成するために、前記画像生成モデルに前記埋め込み誤差を逆伝播させることと、
    後の画像評価のために更新された画像評価モデルを生成するために、前記画像評価モデルに前記取得した画像の前記特徴の前記識別を逆伝播させることと、
    前記特徴の前記識別を判断することに基づいて、前記画像の前記特徴を識別する情報を提供することと
    をさせる1つ以上の命令を含む、非一時的コンピュータ可読媒体。
  19. 前記1つ以上の命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    前記候補画像のセットを評価するために、強化学習に基づく画像評価モジュールを使用することと、
    前記候補画像のセットの評価に基づいて、解像度基準が満たされていると判断することと、
    をさらにさせ、
    前記1つ以上のプロセッサに前記第1および第2の埋め込みを判断させる前記1つ以上の命令は、前記1つ以上のプロセッサに、
    前記解像度基準が満たされていると判断することに基づいて、前記第1および第2の埋め込みを判断すること
    をさせる、請求項18に記載の非一時的コンピュータ可読媒体。
  20. 前記画像は、ビデオであり、前記候補画像のセットは、前記ビデオのフレームのセットである、請求項18に記載の非一時的コンピュータ可読媒体。
JP2019143480A 2018-08-07 2019-08-05 自動化されたオブジェクト識別のための画像処理 Active JP7128157B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/057,246 2018-08-07
US16/057,246 US10706308B2 (en) 2018-08-07 2018-08-07 Image processing for automated object identification

Publications (2)

Publication Number Publication Date
JP2020047262A JP2020047262A (ja) 2020-03-26
JP7128157B2 true JP7128157B2 (ja) 2022-08-30

Family

ID=67551250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019143480A Active JP7128157B2 (ja) 2018-08-07 2019-08-05 自動化されたオブジェクト識別のための画像処理

Country Status (4)

Country Link
US (1) US10706308B2 (ja)
EP (1) EP3608840A1 (ja)
JP (1) JP7128157B2 (ja)
CN (1) CN110827190B (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016040648A1 (en) 2014-09-12 2016-03-17 Wing Enterprises, Incorporated Ladders, rung assemblies for ladders and related methods
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11037025B2 (en) * 2019-05-30 2021-06-15 Baidu Usa Llc Systems and methods for adversarially robust object detection
US11361189B2 (en) * 2019-12-03 2022-06-14 Ping An Technology (Shenzhen) Co., Ltd. Image generation method and computing device
JP7457545B2 (ja) * 2020-03-19 2024-03-28 Lineヤフー株式会社 評価装置、評価方法及び評価プログラム
US20210350152A1 (en) * 2020-05-11 2021-11-11 Toyota Research Institute, Inc. Structural object detector for hierarchical ontology for traffic light handling
CN111895931B (zh) * 2020-07-17 2021-11-26 嘉兴泊令科技有限公司 一种基于计算机视觉的煤矿作业区标定方法
US12020217B2 (en) * 2020-11-11 2024-06-25 Cdk Global, Llc Systems and methods for using machine learning for vehicle damage detection and repair cost estimation
US11899468B2 (en) 2020-12-22 2024-02-13 Waymo Llc Sensor for flashing light detection
CN114549936B (zh) * 2022-02-28 2022-12-23 曾华杰 增强车辆的摄像头拍摄的影像的方法、***和计算设备
US11669937B2 (en) 2022-02-28 2023-06-06 Huajie ZENG Method and system for enhancing image captured by on-board camera, and computing device
US11689601B1 (en) * 2022-06-17 2023-06-27 International Business Machines Corporation Stream quality enhancement
US11983145B2 (en) 2022-08-31 2024-05-14 Cdk Global, Llc Method and system of modifying information on file

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004585A (ja) 2014-06-13 2016-01-12 株式会社リコー 目標分析方法及び目標分析システム
JP2017068589A (ja) 2015-09-30 2017-04-06 ソニー株式会社 情報処理装置、情報端末、及び、情報処理方法
JP2017159884A (ja) 2016-03-10 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 運転制御装置、運転制御方法及び運転制御プログラム
US20180075581A1 (en) 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
JP2018097807A (ja) 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979049A (en) * 1989-06-01 1990-12-18 At&T Bell Laboratories Efficient encoding/decoding in the decomposition and recomposition of a high resolution image utilizing its low resolution replica
US7528947B2 (en) * 2003-07-10 2009-05-05 Yissum Research Development Company Of The Hebrew University Of Jerusalem Nanoparticles functionalized probes and methods for preparing such probes
CN100550102C (zh) * 2005-11-14 2009-10-14 索尼株式会社 显示设备及其驱动方法
JP2008287119A (ja) * 2007-05-18 2008-11-27 Semiconductor Energy Lab Co Ltd 液晶表示装置の駆動方法
EP2183792A1 (en) * 2007-08-31 2010-05-12 Lattice Power (Jiangxi) Corporation Gallium nitride light-emitting device with ultra-high reverse breakdown voltage
US8317329B2 (en) * 2009-04-02 2012-11-27 GM Global Technology Operations LLC Infotainment display on full-windshield head-up display
CN102254295B (zh) * 2011-07-13 2013-04-17 西安电子科技大学 一种基于支持向量机的彩色半色调图像水印算法
US20150268338A1 (en) * 2014-03-22 2015-09-24 Ford Global Technologies, Llc Tracking from a vehicle
WO2016145089A1 (en) * 2015-03-09 2016-09-15 Skytree, Inc. System and method for using machine learning to generate a model from audited data
US10803391B2 (en) * 2015-07-29 2020-10-13 Google Llc Modeling personal entities on a mobile device using embeddings
CN105913026A (zh) * 2016-04-12 2016-08-31 江苏大学 一种基于Haar-PCA特征和概率神经网络的行人检测方法
US10681558B2 (en) * 2016-06-23 2020-06-09 Apple Inc. Methods and devices for user detection in spectrum sharing
US9746846B1 (en) * 2016-09-09 2017-08-29 Accenture Global Solutions Limited Automated loading bridge positioning using encoded decals
US10511510B2 (en) * 2016-11-14 2019-12-17 Accenture Global Solutions Limited Performance of communication network based on end to end performance observation and evaluation
GB2563004A (en) * 2017-05-23 2018-12-05 Nokia Technologies Oy Methods and apparatuses for handling visual virtual reality content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004585A (ja) 2014-06-13 2016-01-12 株式会社リコー 目標分析方法及び目標分析システム
JP2017068589A (ja) 2015-09-30 2017-04-06 ソニー株式会社 情報処理装置、情報端末、及び、情報処理方法
JP2017159884A (ja) 2016-03-10 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 運転制御装置、運転制御方法及び運転制御プログラム
US20180075581A1 (en) 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
JP2018097807A (ja) 2016-12-16 2018-06-21 株式会社デンソーアイティーラボラトリ 学習装置

Also Published As

Publication number Publication date
US20200050879A1 (en) 2020-02-13
CN110827190B (zh) 2023-09-08
CN110827190A (zh) 2020-02-21
EP3608840A1 (en) 2020-02-12
US10706308B2 (en) 2020-07-07
JP2020047262A (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
JP7128157B2 (ja) 自動化されたオブジェクト識別のための画像処理
CN112232293B (zh) 图像处理模型训练、图像处理方法及相关设备
US11379695B2 (en) Edge-based adaptive machine learning for object recognition
US10043255B1 (en) Utilizing a machine learning model to automatically visually validate a user interface for multiple platforms
US10332261B1 (en) Generating synthetic images as training dataset for a machine learning network
US11538236B2 (en) Detecting backdoor attacks using exclusionary reclassification
WO2020144508A1 (en) Representative-based metric learning for classification and few-shot object detection
US10762678B2 (en) Representing an immersive content feed using extended reality based on relevancy
US11514605B2 (en) Computer automated interactive activity recognition based on keypoint detection
EP3913527A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
US20210089823A1 (en) Information processing device, information processing method, and non-transitory computer-readable storage medium
CN113705650B (zh) 一种人脸图片集的处理方法、装置、介质和计算设备
KR101628602B1 (ko) 프로그램의 유사도를 판단하기 위한 유사도 판단 방법 및 유사도 판단 장치
AU2021251463B2 (en) Generating performance predictions with uncertainty intervals
US11755688B2 (en) Apparatus and method for generating training data for a machine learning system
US20230122881A1 (en) Edge and Cloud Computing Image Processing
US10832407B2 (en) Training a neural network adapter
KR20230149263A (ko) 영상 데이터에서 움직이는 객체를 추적하는 방법, 서버 및 컴퓨터 프로그램
KR20230149262A (ko) 파장 정보를 기반으로 영상에서 움직이는 객체를 탐지하는 방법, 서버 및 컴퓨터 프로그램
KR20220077439A (ko) 객체 검색 모델 및 그 학습 방법
KR20240000230A (ko) 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램
CN112581357A (zh) 人脸数据的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210524

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220330

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220330

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220331

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220523

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220524

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220818

R150 Certificate of patent or registration of utility model

Ref document number: 7128157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150