KR20230058417A - 뉴럴 임베딩을 가지는 카메라 이미지 또는 비디오 처리 파이프라인 - Google Patents

뉴럴 임베딩을 가지는 카메라 이미지 또는 비디오 처리 파이프라인 Download PDF

Info

Publication number
KR20230058417A
KR20230058417A KR1020237008263A KR20237008263A KR20230058417A KR 20230058417 A KR20230058417 A KR 20230058417A KR 1020237008263 A KR1020237008263 A KR 1020237008263A KR 20237008263 A KR20237008263 A KR 20237008263A KR 20230058417 A KR20230058417 A KR 20230058417A
Authority
KR
South Korea
Prior art keywords
neural
processing system
image
image processing
processing
Prior art date
Application number
KR1020237008263A
Other languages
English (en)
Inventor
케빈 고든
마틴 험프리스
콜린 다모어
Original Assignee
스펙트럼 옵틱스 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스펙트럼 옵틱스 아이엔씨. filed Critical 스펙트럼 옵틱스 아이엔씨.
Publication of KR20230058417A publication Critical patent/KR20230058417A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Processing Of Color Television Signals (AREA)

Abstract

스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인은 적어도 부분적으로 뉴럴 임베딩으로부터 도출된 정보를 사용하도록 배열된 이미지 처리 시스템의 제 1 부분을 포함한다. 이미지 처리 시스템의 제 2 부분은 적어도 부분적으로 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 사용될 수 있다.

Description

뉴럴 임베딩을 가지는 카메라 이미지 또는 비디오 처리 파이프라인
본 출원은 2020년 8월 28일에 출원되고 "뉴럴 임베딩을 가지는 카메라 이미지 또는 비디오 처리 파이프라인"으로 명명된 미국 가출원 제63/071,966호의 우선권의 이익을 주장하며, 이는 전체 내용이 인용에 의해 본원에 포함된다.
본 출원은 처리 복잡도를 감소시키고 이미지 또는 비디오를 개선하도록 뉴럴 임베딩 기법을 사용하여 이미지를 개선하기 위한 시스템에 관한 것이다. 특히, 이미지 처리 파라미터 또는 카메라 설정을 구성하기 위해 사용될 수 있는 분류기를 제공하도록 뉴럴 임베딩을 사용하는 방법 및 시스템이 기재된다.
디지털 카메라는 일반적으로 이미지 센서에 의해 수신된 신호를 이용가능한 이미지로 변환하는 디지털 이미지 처리 파이프라인을 요구한다. 처리는 신호 증폭, 바이어 마스크(Bayer masks) 또는 다른 필터에 대한 보정(correction), 디모자이킹, 색상공간 변환, 및 흑백 수준 조정을 포함할 수 있다. 더 고급 처리 단계는 HDR 인 필링(in-filling), 초해상도, 채도(saturation), 생동감(vibrancy), 또는 다른 색상 조정, 틴트 또는 IR 제거, 및 객체 또는 장면 분류를 포함할 수 있다. 다양한 특화된 알고리즘을 사용하여, 보정은 카메라에 내장되어 또는 나중에 RAW 이미지의 후처리에서 이루어질 수 있다. 그러나 이들 알고리즘의 다수는 독점적이거나, 수정하기 어렵거나 최고의 결과를 위해 실질적으로 상당한 양의 숙련된 사용자 작업을 요구한다. 많은 경우, 전통적인 신경망 방법을 사용하는 것은 제한된 이용가능한 처리 능력 및 문제의 고차원성 때문에 비현실적이다. 영상화 시스템(imaging system)은 의도된 사용 사례를 달성하기 위해 다중 이미지 센서를 부가적으로 이용할 수 있다. 그러한 시스템은 각각의 센서를 완벽하게 독립적으로, 결합하여, 또는 일부 조합하여 처리할 수 있다. 많은 경우, 독립적으로 각각의 센서를 처리하는 것은 각각의 센서를 위한 특화된 하드웨어의 비용 때문에 비현실적인 반면에, 모든 센서를 결합하여 처리하는 것은 제한된 시스템 통신 버스 대역폭 및 높은 신경망 입력 복잡도 때문에 비현실적이다. 이미지 처리를 개선할 수 있고, 사용자 작업을 감소시킬 수 있으며, 업데이팅 및 개선을 가능하게 하는 방법 및 시스템이 필요하다.
본 발명의 비제한적이고 전체 중 일부 실시예가 다음의 도면을 참조하여 기술되고, 유사한 참조 번호는 달리 특정되지 않는다면 다양한 도면에 걸쳐 유사한 부분을 언급한다.
도 1a는 신경망 지원 이미지 또는 비디오 처리 파이프라인을 도시하고;
도 1b는 신경망 지원 이미지 또는 비디오 처리 시스템을 도시하고;
도 1c는 신경망 지원 소프트웨어 시스템을 도시하는 또 다른 실시예이고;
도 1d-1g는 신경망 지원 이미지 처리의 예를 도시하고;
도 2는 제어, 영상화 및 디스플레이 서브(sub)-시스템을 갖는 시스템을 도시하고;
도 3은 RGB 이미지의 신경망 처리의 일 예를 도시하고;
도 4는 완전 컨볼루션 신경망의 실시예를 도시하고;
도 5는 신경망 훈련 절차의 일 실시예를 도시하고;
도 6은 뉴럴 임베딩을 사용하여 차원성을 줄여서 처리하기 위한 프로세스를 도시하고;
도 7은 뉴럴 임베딩을 사용하여 분류(categorization), 비교, 또는 매칭을 위한 프로세스를 도시하고;
도 8은 메타데이터에서 뉴럴 임베딩 정보를 보존하기 위한 프로세스를 도시하고;
도 9는 신경망 시스템에서 잠재 벡터를 규정하고 활용하기 위한 일반적인 절차를 도시하고;
도 10은 신경망 시스템에서 다양한 벤더의 모듈들 사이에 정보를 통과시키기 위해 잠재 벡터를 사용하기 위한 일반적인 절차를 도시하고;
도 11은 잠재 벡터를 포함하는 신경망 도출 정보의 버스 매개 통신을 도시하고;
도 12는 잠재 벡터 정보를 사용한 이미지 데이터베이스 검색을 도시하고;
도 13은 잠재 벡터 파라미터의 사용자 조작을 도시한다.
다음의 기재된 실시예 중 일부에서, 처리 복잡도를 감소시키고 이미지 또는 비디오를 개선하도록 뉴럴 임베딩 정보 또는 기법을 사용하여 이미지를 개선하기 위한 시스템이 기재된다. 특히, 뉴럴 임베딩을 사용하는 방법 및 시스템은 이미지 처리 파라미터 또는 카메라 설정을 구성하기 위해 사용될 수 있는 분류기를 제공한다. 일부 실시예에서, 뉴럴 임베딩을 생성하고, 분류 및 다른 기계 학습 업무를 포함하는 다양한 어플리케이션을 위해 이들 뉴럴 임베딩을 사용하고, 영상화 시스템에서 대역폭을 감소시키고, 뉴럴 추론 시스템(및 결과적으로 파워), 데이터베이스 쿼리 및 객체 추적(tracking)과 같은 식별 및 연계 시스템에서 컴퓨터 요구사항을 감소시키고, 다중 센서 및 센서 유형으로부터 정보를 조합하고, 훈련 또는 창의적 목적을 위해 신규한 데이터를 생성하고, 시스템 입력을 재구성하기 위한 시스템 및 방법이 기재된다.
일부 실시예에서, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인은 적어도 부분적으로 뉴럴 임베딩으로부터 도출된 정보를 사용하도록 배열된 이미지 처리 시스템의 제 1 부분을 더 포함한다. 이미지 처리 시스템의 제 2 부분은 적어도 부분적으로 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 사용될 수 있다.
일부 실시예에서, 이미지 처리 파이프라인은 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 이미지 처리 시스템의 제 1 부분을 포함하는 스틸 또는 비디오 카메라를 포함할 수 있다. 이미지 처리 시스템의 제 2 부분은 적어도 부분적으로 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 배열될 수 있다.
일부 실시예에서, 이미지 처리 파이프라인은 신경 처리 시스템으로부터 도출된 뉴럴 임베딩 정보를 사용하여 분류, 추적, 및 매칭 중 적어도 하나를 위해 배열된 이미지 처리 시스템의 제 1 부분을 포함할 수 있다. 이미지 처리 시스템의 제 2 부분은 적어도 부분적으로 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 배열될 수 있다.
일부 실시예에서, 이미지 처리 파이프라인은 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 이미지 처리 시스템의 제 1 부분을 포함할 수 있다. 이미지 처리 시스템의 제 2 부분은 이미지 또는 비디오 메타데이터 내의 뉴럴 임베딩 정보를 보존하도록 배열될 수 있다.
일부 실시예에서, 이미지 캡처 장치는 이미지 캡처 장치 작동을 제어하도록 프로세서를 포함한다. 뉴럴 프로세서는 이미지 캡처 장치에 의해 지원되고 센서 처리, 글로벌 후처리, 및 로컬 후처리를 포함하는 그룹으로부터 선택된 적어도 2개의 처리 절차를 제공하도록 신경망 데이터를 사용하는 뉴럴 프로세서로, 신경망 데이터를 수신하도록 프로세서에 연결될 수 있다.
도 1a는 신경망 지원 이미지 또는 비디오 처리 파이프라인 시스템 및 방법(100A)의 일 실시예를 도시한다. 이러한 파이프라인(100A)은 이미지 처리 파이프라인의 다중 지점에서 신경망을 사용할 수 있다. 예를 들어, 이미지 캡처(단계 110A) 전에 발생하는 신경망 기반 이미지 전처리는 ISO, 초점, 노출, 해상도, 이미지 캡처 모멘트(예를 들어, 눈을 뜰 때) 또는 다른 이미지 또는 비디오 설정 중 하나 이상을 선택하도록 신경망의 사용을 포함할 수 있다. 합리적인 이미지 또는 비디오 설정을 단순히 선택하도록 신경망을 사용하는 것에 더해서, 그러한 아날로그 및 전(pre)-이미지 캡처 인자는 자동으로 조정되거나 나중에 신경망 처리의 효율성을 개선할 인자에 우호적이도록 조정될 수 있다. 예를 들어, 플래시 또는 다른 장면 조명이 강도, 지속 시간에서 증가되거나 방향 변경될 수 있다. 필터는 광학 경로로부터 제거될 수 있거나, 조리개가 더 넓게 열리거나, 셔터 속도가 감소될 수 있다. 이미지 센서 효율성 또는 증폭은 ISO 선택에 의해 조정될 수 있으며, 이 모든 것은 (예를 들어) 개선된 신경망 색상 조정 또는 HDR 처리를 위한 관점에서 볼 수 있다.
이미지 캡처 후에, 신경망 기반 센서 처리(단계 112A)는 맞춤식 디모자이크, 톤 맵, 디헤이징, 픽셀 실패 보상, 또는 먼지 제거를 제공하도록 사용될 수 있다. 다른 신경망 기반 처리는 바이어(Bayer) 색상 필터 어레이 보정, 색상공간 변환, 흑백 수준 조정, 또는 다른 센서 관련 처리를 포함할 수 있다.
신경망 기반 글로벌 후처리(단계 114A)는 적층된 초점(stacked focus) 또는 HDR 처리는 물론, 해상도 또는 색상 조정을 포함할 수 있다. 다른 글로벌 후처리 특징은 HDR 인 필링, 보케 조정(bokeh adjustments), 초해상도, 생동감, 채도, 또는 색상 향상, 및 틴트 또는 IR 제거를 포함할 수 있다.
신경망 기반 로컬 후처리(단계 116A)는 적목(red-eye) 제거, 흠집(blemish) 제거, 다크 서클 제거, 블루 스카이 향상, 초목잎 향상, 또는 이미지의 로컬 부분, 섹션, 객체, 또는 영역의 다른 처리를 포함할 수 있다. 특정 로컬 영역의 식별은 예를 들어, 얼굴 또는 눈 검출기를 포함하는 다른 신경망 보조 기능성의 사용을 수반할 수 있다.
신경망 기반 포트폴리오 후처리(단계 116A)는 식별, 분류, 또는 발행에 관련된 이미지 또는 비디오 처리 단계를 포함할 수 있다. 예를 들어, 신경망은 사람을 식별하고 메타데이터 태깅을 위해 그 정보를 제공하도록 사용될 수 있다. 다른 실시예는 애완동물 사진, 풍경, 또는 인물화와 같은 카테고리로 분류하기 위한 신경망의 사용을 포함할 수 있다.
도 1b는 신경망 지원 이미지 또는 비디오 처리 시스템(120B)을 도시한다. 일 실시예에서, 하드웨어 레벨 신경 제어 모듈(122B)(설정 및 센서 포함)은 처리, 메모리 접근, 데이터 전송, 및 다른 저수준 컴퓨팅 활동을 지원하도록 사용될 수 있다. 시스템 레벨 신경 제어 모듈(124B)은 하드웨어 모듈(122B)과 상호작용하고 유용하거나 필요한 해상도, 조명 또는 색상 조정을 결정하는 것을 포함하는, 예비 또는 요구된 저수준 자동 사진 제시 툴을 제공한다. 이미지 또는 비디오는 3자 정보 또는 기본 설정(preference)에 기반해서 사용자 기본 설정 설정, 이력적(historical) 사용자 설정, 또는 다른 신경망 처리 설정을 포함할 수 있는 시스템 레벨 신경 제어 모듈(126B)을 사용하여 처리될 수 있다. 시스템 레벨 신경 제어 모듈(128B)은 또한 로컬, 원격 또는 분산 신경망 처리가 필요한지 여부를 결정하기 위한 설정은 물론, 3자 정보 및 기본 설정를 포함할 수 있다. 일부 실시예에서, 분산 신경 제어 모듈(130B)은 협력적인 데이터 교환을 위해 사용될 수 있다. 예를 들어, (예를 들어, 하드 초점 스타일로부터 소프트 초점 스타일로의) 바람직한 인물화 이미지의 소셜 네트워크 커뮤니티 변경 스타일로서, 인물화 모드 신경망 처리 역시 조정될 수 있다. 이러한 정보는 네트워크 잠재 벡터를 사용하는 다양한 개시된 모듈, 제공된 훈련 세트, 또는 모드 관련된 설정 추천 중 어느 하나에 전송될 수 있다.
도 1c는 신경망 지원 소프트웨어 시스템(120B)을 도시하는 또 다른 실시예이다. 도시된 바와 같이, 광(빛), 장면, 및 캡처 매체를 포함하는 환경에 관한 정보는 예를 들어 외부 조명 시스템의 제어에 의해 또는 카메라 플래시 시스템 상에서 감지되고 잠재적으로 변경된다. 광학 및 전자 서브시스템을 포함하는 영상화 시스템은 신경 처리 시스템 및 소프트웨어 어플리케이션 레이어와 상호작용할 수 있다. 일부 실시예에서, 원격, 로컬 또는 협력적 신경 처리 시스템은 설정 및 신경망 처리 조건에 관련된 정보를 제공하도록 사용될 수 있다.
더 구체적으로, 영상화 시스템은 전자 시스템으로 제어되고 그와 상호작용하는 광학 시스템을 포함할 수 있다. 광학 시스템은 셔터, 초점, 필터링 및 조리개의 전자, 소프트웨어 또는 하드웨어 제어기는 물론 렌즈 및 조명 이미터와 같은 광학 하드웨어를 포함한다. 전자 시스템은 센서 및, 필터링, 세트 노출 시간을 제공하고, 아날로그-디지털 변환(ADC)을 제공하고, 아날로그 게인을 제공하고 조명 제어기로서 역할을 하는 다른 전자, 소프트웨어 또는 하드웨어 제어기를 포함한다. 영상화 시스템으로부터의 데이터는 추가 처리 및 분배를 위해 어플리케이션 레이어에 보내질 수 있고 제어 피드백은 신경 처리 시스템(NPS)으로 제공될 수 있다.
신경 처리 시스템은 전단 모듈, 후단 모듈, 사용자 기본 설정 설정, 포트폴리오 모듈, 및 데이터 분배 모듈을 포함할 수 있다. 모듈을 위한 계산은 로컬, 원격적이거나, 또는 원격 또는 로컬인 다중의 협력적인 신경 처리 시스템을 통해 수행될 수 있다. 신경 처리 시스템은 데이터를 어플리케이션 레이어 및 영상화 시스템으로 보낼 수 있고 받을 수 있다.
도시된 실시예에서, 전단은 영상화 시스템, 환경 보상, 환경 합성, 임베딩, 및 필터링을 위한 설정 및 제어를 포함한다. 후단은 선형화, 필터 보정, 블랙 레벨 세트, 화이트 밸런스, 및 디모자이크를 제공한다. 사용자 기본 설정는 노출 설정, 톤 및 색상 설정, 환경 합성, 필터링, 및 생성적 변환(creative transformation)을 포함할 수 있다. 포트폴리오 모듈은 이러한 데이터를 수신하고 분류, 인물 식별, 또는 지리적 태깅(geotagging)을 제공할 수 있다. 분배 모듈은 다중 신경 처리 시스템으로부터 데이터를 보내고 받는 것을 조율할 수 있고 임베딩을 어플리케이션 레이어로 보내고 받을 수 있다. 어플리케이션 레이어는 이미지 또는 설정 결과 미리보기는 물론 맞춤식 설정에 유저 인터페이스를 제공한다. 이미지 또는 다른 데이터는 저장되고 전송될 수 있고, 신경 처리 시스템과 관련된 정보는 장래 사용을 위해, 또는 분류, 활동 또는 객체 감지, 또는 의사 결정 업무를 단순화하기 위해 축적될 수 있다.
도 1d는 신경망 지원 이미지 처리(140D)의 일 실시예를 도시한다. 신경망은 노출 설정 결정(142D), RGB 또는 바이어 필터 처리(142D), 색상 채도 조정(142D), 적목 감소(142D), 또는 소유자 셀피와 같은 사진 카테고리를 식별하거나 메타데이터 태깅 및 인터넷 매개 분배 어시스턴스를 제공하는 것(142D)을 포함하는 하나 이상의 처리 단계에서 이미지 캡처 설정을 수정하거나 조절하도록 사용될 수 있다.
도 1e는 신경망 지원 이미지 처리(140E)의 또 다른 실시예를 도시한다. 신경망은 노이즈 제거(142E), 색상 채도 조정(144E), 눈부심(glare) 제거(146E), 적목 감소(148E), 및 아이 컬러 필터(150E)를 포함하는 하나 이상의 처리 단계에서 이미지 캡처 설정을 수정하거나 조절하도록 사용될 수 있다.
도 1f는 신경망 지원 이미지 처리(140F)의 또 다른 실시예를 도시한다. 신경망은 다중 이미지의 캡처(142F), 다중 이미지로부터 이미지 선택(144F), 고 다이나믹 레인지(HDR) 처리(146F), 밝은 점(bright spot) 제거(148F), 및 자동 분류 및 메타데이터 태깅(150F)을 포함할 수 있지만 그로 한정되지 않는 하나 이상의 처리 단계에서 이미지 캡처 설정을 수정하거나 제어하도록 사용될 수 있다.
도 1g는 신경망 지원 이미지 처리(140G)의 또 다른 실시예를 도시한다. 신경망은 비디오 및 오디오 설정 선택(142G), 전자 프레임 안정화(144G), 객체 센터링(146G), 모션 보상(148G), 및 비디오 압축(150G)을 포함하는 하나 이상의 처리 단계에서 이미지 캡처 설정을 수정하거나 제어하도록 사용될 수 있다.
광범위의 스틸 또는 비디오 카메라는 신경망 지원 이미지 또는 비디오 처리 파이프라인 시스템 및 방법의 사용으로부터 혜택을 받을 수 있다. 카메라 유형은 스틸 또는 비디오 능력을 갖는 종래의 DSLR, 스마트폰, 태블릿 카메라, 또는 랩탑 카메라, 전용 비디오 카메라, 웹캠, 또는 보안 카메라를 포함하지만 그로 한정되지 않는다. 일부 실시예에서, 적외선 카메라, 열 영상기, 밀리미터 파 영상화 시스템, x-레이 또는 다른 방사선 영상기와 같은 특화된 카메라가 사용될 수 있다. 실시예는 또한 초분광 이미지 처리를 허용하기 위해 적외선, 자외선, 또는 다른 파장을 감지할 수 있는 센서를 갖는 카메라를 포함할 수 있다.
카메라는 독립형이거나, 휴대가능하거나 고정된 시스템일 수 있다. 일반적으로, 카메라는 프로세서, 메모리, 이미지 센서, 통신 인터페이스, 카메라 광학 및 액추에이터 시스템, 및 메모리 저장소를 포함한다. 프로세서는 카메라 광학 및 센서 시스템의 작동과 같은 카메라의 전체 작동, 및 이용가능한 통신 인터페이스를 제어한다. 카메라 광학 및 센서 시스템은 이미지 센서에 캡처된 이미지에 대한 노출 제어와 같은 카메라의 작동을 제어한다. 카메라 광학 및 센서 시스템은 고정된 렌즈 시스템 또는 조정가능한 렌즈 시스템(예를 들어, 줌 및 자동 포커싱 기능)을 포함할 수 있다. 카메라는 제거가능한 메모리 카드, 유선 USB, 또는 무선 데이터 전송 시스템과 같은 메모리 저장 시스템을 지원할 수 있다.
일부 실시예에서, 신경망 처리는 전용 신경망 처리 시스템, 랩탑, PC, 서버, 또는 클라우드를 포함하는 원격 전산 자원에 이미지 데이터의 전달 후에 발생할 수 있다. 다른 실시예에서, 신경망 처리는 최적화된 소프트웨어, 신경 처리 칩, 전용 ASIC, 맞춤식 집적 회로, 또는 프로그램 가능 FPGA 시스템을 사용하여 카메라 내에 발생할 수 있다.
일부 실시예에서, 신경망 처리의 결과는 객체 인식, 패턴 인식, 얼굴 식별, 이미지 안정화, 로봇 또는 차량 주행거리측정 및 포지셔닝, 또는 추적 또는 타겟팅 어플리케이션을 위해 개발된 것들을 포함하는 다른 기계 학습 또는 신경망 시스템에 대한 입력으로서 사용될 수 있다. 유리하게, 그러한 신경망 처리된 이미지 정상화는 예를 들어, 높은 노이즈 환경에서 컴퓨터 비전 알고리즘 실패를 감소시켜서, 이들 알고리즘이 특징 확신에서 노이즈 관련된 감소로 인해 일반적으로 실패하는 환경에서 작업하는 것을 가능하게 한다. 일반적으로, 이는 저조도 환경, 안개 낀 환경, 먼지 있는 환경, 또는 연무가 낀 환경, 또는 라이트 플래싱 또는 라이트 눈부심에 영향 받는 환경을 포함할 수 있지만 이로 한정되지 않는다. 사실상, 이미지 센서 노이즈는, 나중에 학습 알고리즘의 성능 저하가 감소되도록 신경망 처리에 의해 제거된다.
특정 실시예에서, 다중 이미지 센서는 고 다양성 범위 이미지를 제공하도록 함께 작업하는 예를 들어, 다른 광 감도를 갖는 센서로, 더 넓은 작동 및 감지 엔빌로프를 가능하게 하는 기재된 신경망 처리와 조합하여 집합적으로 작동할 수 있다. 다른 실시예에서, 분리 신경망 처리 노드를 갖는 광학 또는 알고리즘 영상화 시스템의 체인이 함께 결합될 수 있다. 여전히 다른 실시예에서, 신경망 시스템의 훈련은 전체적으로, 특정 영상기와 연관된 임베디드 구성요소로서 작동하는, 영상화 시스템으로부터 결합해제될 수 있다.
도 2는 일반적으로 신경망 및 이미지 처리 알고리즘의 사용 및 훈련을 위한 하드웨어 지원을 기재한다. 일부 실시예에서, 신경망은 일반적인 아날로그 및 디지털 이미지 처리에 적합할 수 있다. 각각의 제어 신호를 영상화 시스템(204) 및 디스플레이 시스템(206)에 보낼 수 있는 제어 및 저장 모듈(202)이 제공된다. 영상화 시스템(204)은 처리된 이미지 데이터를 제어 및 저장 모듈(202)에 공급할 수 있는 반면에 프로파일링 데이터를 디스플레이 시스템(206)으로부터 수신할 수도 있다. 감독 또는 반감독 방식으로 신경망을 훈련하는 것은 고품질 훈련 데이터를 요구한다. 그러한 데이터를 얻기 위해, 시스템(200)은 자동화된 영상화 시스템 프로파일링을 제공한다. 제어 및 저장 모듈(202)은 디스플레이 시스템(206)에 전송될 캘리브레이션 및 로우(raw) 프로파일링 데이터를 포함한다. 캘리브레이션 데이터는 해상도, 초점, 또는 다양성 범위를 평가하기 위한 타겟을 포함할 수 있지만 그로 한정되지 않는다. 로우 프로파일링 데이터는 고품질 영상화 시스템(기준 시스템)으로부터 캡처된 자연 및 인공 장면 및 절차적으로 생성된 장면(수학적으로 도출됨)을 포함할 수 있지만 그로 한정되지 않는다.
디스플레이 시스템(206)의 예는 고품질 전자 디스플레이다. 디스플레이는 조정된 명도를 가질 수 있거나 중성 밀도 필터와 같은 물리적 필터링 요소로 증강될 수 있다. 대안적 디스플레이 시스템은 정면광 또는 역광 광원으로 사용될 고품질 기준 프린트 또는 필터링 요소를 포함할 수 있다. 어느 경우에든, 디스플레이 시스템의 목적은 영상화 시스템에 전송될 다양한 이미지 또는 이미지의 시퀀스를 제공하는 것이다.
프로파일링된 영상화 시스템은 제어 및 저장 컴퓨터에 의해 프로그램적으로 제어될 수 있고 디스플레이 시스템의 출력을 영상화할 수 있는 바와 같이 프로파일링 시스템에 일체화된다. 조리개, 노출 시간, 및 아날로그 게인과 같은 카메라 파라미터는 변경되고 단일 디스플레이된 이미지의 다중 노출이 취해진다. 결과 노출은 제어 및 저장 컴퓨터에 전송되고 훈련 목적을 위해 유지된다.
전체 시스템은 프로파일링 동안 광자 “노이즈 플로어”가 알려진 바와 같이 제어된 조명 환경에 위치된다.
전체 시스템은 제한 해상도 인자가 영상화 시스템인 바와 같이 설정된다. 이는 영상화 시스템 센서 픽셀 피치, 디스플레이 시스템 픽셀 디멘션, 영상화 시스템 초점 거리, 영상화 시스템 작동 f-수, 센서 픽셀의 개수(수평 및 수직), 디스플레이 시스템 픽셀의 개수(수직 및 수평)를 포함하지만 그로 한정되지 않는 파라미터를 고려하는 수학적 모델로 달성된다. 사실상, 특정 센서, 센서 제품 또는 유형, 또는 센서의 종류는 개별적인 센서 또는 센서 모델에 정밀하게 맞춰진 고품질 훈련 데이터를 생성하도록 프로파일링될 수 있다.
다양한 유형의 신경망이 완전 컨볼루션 네트워크, 순환(recurrent) 네트워크, 생성적 대립쌍(generative adversarial) 네트워크, 또는 딥(deep) 컨볼루션 네트워크를 포함하는 도 1b 및 도 2에 대해 개시된 시스템으로 사용될 수 있다. 컨볼루션 신경망은 여기 기재된 바와 같은 이미지 처리 어플리케이션에 특히 유용하다. 도 3에 대해 도시된 바와 같이, 도 1a에 대해 기재된 바와 같은 신경 기반 센서 처리를 착수하는 컨볼루션 신경망(300)은 입력으로서 단일의 노출이 부족한 RGB 이미지(310)를 수신할 수 있다. RAW 포맷이 바람직하지만, 압축된 JPG 이미지가 품질의 일부 손실을 갖고 사용될 수 있다. 이미지는 컨볼루션 픽셀 작동으로 전처리될 수 있거나 바람직하게 최소 수정으로 훈련된 컨볼루션 신경망(300)에 공급될 수 있다. 처리는 하나 이상의 컨볼루션 레이어(312), 풀링 레이어(314), 완전히 연결된 레이어(316), 및 개선된 이미지의 RGB 출력(316)을 갖는 단부를 통해 처리될 수 있다. 작동에서, 하나 이상의 컨볼루션 레이어는 RGB 입력에 컨볼루션 작동을 적용하고, 결과를 다음 레이어(들)에 보낸다. 컨볼루션 후에, 로컬 또는 글로벌 풀링 레이어는 다음 레이어에서 단일 또는 소수의 노드에 출력을 조합할 수 있다. 반복된 컨볼루션 또는 컨볼루션/풀링 쌍이 가능하다. 신경 기반 센서 처리가 완료된 후에, RGB 출력이 통과될 수 있고 이러한 RGB 이미지는 추가 신경망 기반 수정을 위해 신경망 기반 글로벌 후처리로 통과될 수 있다.
특정 유틸리티의 하나의 신경망 실시예는 완전 컨볼루션 신경망이다. 완전 컨볼루션 신경망은 일반적으로 네트워크의 끝에서 발견되는 임의의 완전히 연결된 레이어 없이 컨볼루션 레이어로 구성된다. 유리하게, 완전 컨볼루션 신경망은 이미지 크기 독립적이고, 임의의 크기 이미지가 훈련 또는 밝은 점 이미지 수정을 위해 입력으로서 허용가능하다. 완전 컨볼루션 네트워크(400)의 실시예는 도 4에 대해 도시된다. 데이터는 두 개의 3x3 컨볼루션(언패드(unpadded) 컨볼루션)의 반복된 적용을 포함하는 수축 경로 상에서 처리될 수 있고, 각각은 다운 샘플링 동안 정류된 선형 유닛(ReLU) 및 스트라이드 2로 2x2 맥스 풀링 작동이 이어진다. 각각의 다운 샘플링 단계에서, 특징 채널의 개수는 두 배가 된다. 팽창 경로에 매 단계는 특징 채널의 개수를 절반으로 하고, 수축 경로로부터 상응하게 크로핑된 특징 맵을 접합에 제공하고, 각각이 ReLU에 의해 이어지는 두 개의 3x3 컨볼루션을 포함하는, 2x2 컨볼루션(업 컨볼루션)이 이어지는 특징 맵의 업 샘플링으로 구성된다. 특징 맵 크로핑은 매 컨볼루션에서 경계 픽셀의 손실을 보상한다. 최종 레이어에서, 1x1 컨볼루션은 소망하는 개수의 클래스에 각각의 64-구성요소 특징 벡터를 매핑하도록 사용된다. 기재된 네트워크가 23개의 컨볼루션 레이어를 갖는 한편, 더 많거나 적은 컨볼루션 레이어가 다른 실시예에서 사용될 수 있다. 훈련은 확률적 기울기 하강 기법을 사용하여 상응하는 세그먼트화 맵을 갖는 입력 이미지를 처리하는 것을 포함할 수 있다.
도 5는 한 세트의 입력에 대해 소망하는 출력을 생성하는 바와 같이 파라미터가 조작될 수 있는 신경망 훈련 시스템(500)의 일 실시예를 도시한다. 네트워크의 파라미터를 조작하는 하나의 그러한 방식은 “감독된 훈련”에 의한다. 감독된 훈련에서, 조작자는 소스/타겟 쌍(510 및 502)을 네트워크에 제공하고, 목적 함수와 조합될 때, 일부 스킴(예를 들어, 역전파(backpropagation))에 따라 네트워크 시스템(500)에서 일부 또는 모든 파라미터를 수정할 수 있다.
도 5의 기재된 실시예에서, 프로파일링 시스템, 수학적 모델 및 공개적으로 이용가능한 데이터세트와 같은 다양한 소스로부터의 고품질 훈련 데이터(소스(510) 및 타겟(502) 쌍)는 네트워크 시스템(500)으로의 입력을 위해 준비된다. 방법은 데이터 패키징 타겟(504), 및 소스(512), 및 전처리 람다 타겟(506) 및 소스(514)를 포함한다.
데이터 패키징은 하나 또는 다수의 훈련 데이터 샘플(들)을 취하고, 결정된 스킴에 따라 그를 정상화하고, 텐서에서 네트워크에 입력을 위해 데이터를 배열한다. 훈련 데이터 샘플은 시퀀스 또는 시간 데이터를 포함할 수 있다.
처리 람다는 조작자가 신경망 또는 목적 함수에 입력 전에 소스 입력 또는 타겟 데이터를 수정하는 것을 허용한다. 이는 데이터를 증강하고, 일부 스킴에 따라 텐서를 거부하고, 텐서에 합성 노이즈를 부가하고, 정렬 목적을 위해 데이터에 워프(warps) 및 변형을 수행하거나 이미지 데이터로부터 데이터 라벨로 전환하는 것일 수 있다.
사실상 각각이 자신의 목적 함수를 갖는 다중 출력이 시너지 효과를 가질 수 있음이 발견됨에도, 훈련된 네트워크(516)는 적어도 하나의 입력 및 출력(518)을 가진다. 예를 들어, 목적이 텐서에서 객체를 분류하는 것인 “분류기 헤드” 출력을 통해 성능이 개선될 수 있다. 타겟 출력 데이터(508), 소스 출력 데이터(518), 및 목적 함수(520)는 함께 최소화될 네트워크의 손실, 추가 훈련 또는 데이터 세트 처리에 의해 개선될 수 있는 값을 규정한다.
도 6은 신경망 처리에 대한 대안적, 보완적, 또는 보충적 접근의 일 실시예를 도시하는 흐름도이다. 뉴럴 임베딩으로 알려진 것에 의해, 처리 문제의 차원성이 감소될 수 있고 이미지 처리 속도가 크게 개선될 수 있다. 뉴럴 임베딩은 벡터(“잠재 벡터”)에 의해 표현된 저차원 매니폴드 상의 위치에 고차원 이미지의 매핑을 제공한다. 잠재 벡터의 구성요소는 특정 이산 변수를 표현하도록 강제될 수 있는 연속적인 표현이 학습된다. 일부 실시예에서, 뉴럴 임베딩은 연속적인 수의 벡터에 대한 이산 변수의 매핑이고, 이산 변수의 저차원 학습된 연속적인 벡터 표현을 제공한다. 유리하게, 이는 예를 들어, 감독된 업무 또는 임베딩 공간에서 가장 가까운 이웃을 찾기 위해 기계 학습 모델에 입력을 허용한다.
일부 실시예에서, 신경망 임베딩은 카테고리 변수의 차원성을 감소시키고 변형된 공간에서 카테고리를 표현할 수 있기 때문에 유용하다. 뉴럴 임베딩은 신경망을 완벽하게 재훈련할 필요 없이 새로운 관련된 도메인에 도메인 특정 지식의 단순화된 전달을 허용하는 것은 물론, 분류, 추적, 및 매칭에 특히 유용하다. 일부 실시예에서, 뉴럴 임베딩은, 예를 들어, 선택적 나중 처리 또는 이미지 관련된 쿼리에 대한 개선된 응답을 허용하도록 이미지 또는 비디오 메타데이터에서 잠재 벡터를 보존함으로써, 나중 사용을 위해 제공될 수 있다. 예를 들어, 이미지 처리 시스템의 제 1 부분은, 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열될 수 있다. 이미지 처리 시스템의 제 2 부분은 신경 처리 시스템으로부터 도출된 뉴럴 임베딩 정보를 사용하여 분류, 추적, 및 매칭 중 적어도 하나를 위해 배열될 수도 있다. 유사하게, 신경망 훈련 시스템은 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 신경망 알고리즘의 제 1 부분을 포함할 수 있다. 신경망 알고리즘의 제 2 부분은 신경 처리 시스템으로부터 도출된 뉴럴 임베딩 정보를 사용하여 분류, 추적, 및 매칭 중 적어도 하나를 위해 배열되고, 훈련 절차는 훈련 네트워크 알고리즘의 제 1 및 제 2 부분을 최적화하도록 사용된다.
일부 실시예에서, 훈련 및 추론 시스템은 신규한 딥 러닝 알고리즘을 생성하도록 뉴럴 임베딩 알고리즘과 조합될 수 있는 분류기 또는 다른 딥 러닝 알고리즘을 포함할 수 있다. 뉴럴 임베딩 알고리즘은 가중치가 훈량가능하거나 훈련가능하지 않은 바와 같이 구성될 수 있지만, 어느 경우에든, 신규한 알고리즘이 종단간 훈련가능한 바와 같이 완전히 차별화될 것이고, 신규한 딥 러닝 알고리즘은 목적 함수로부터 로우 데이터 입력으로 직접 최적화되는 것을 허용한다.
추론 동안, 위에 기재된 알고리즘(C)은 임베딩 알고리즘(A)이 에지 또는 종점 장치 상에 실행하는 한편, 알고리즘(B)은 중앙집중식 컴퓨팅 자원(클라우드, 서버, 게이트웨이 장치) 상에 실행할 수 있는 바와 구획될 수 있다.
더 구체적으로, 도 6에 도시된 바와 같이, 뉴럴 임베딩 프로세스(600)의 일 실시예는 벤더(A)에 의해 제공된 비디오로 시작한다(단계(610)). 비디오는 임베딩(단계(612))에 의해 다운샘플링되어서 벤더(B)의 분류기(단계(614))에 저차원 입력을 제공한다. 벤더(B)의 분류기는 감소된 전산 비용으로부터 혜택을 받아서, 출력(618)에 감소된 정확도의 손실을 갖는 개선된 이미지 처리(단계(616))를 제공한다. 일부 실시예에서, 개선된 이미지 처리 단계(616)의 출력(618)으로부터의 이미지들, 파라미터들, 또는 다른 데이터는 벤더(B)에 의해 벤더(A)에 제공될 수 있어서, 임베딩 단계(612)를 개선한다.
도 7은 분류, 비교, 또는 매칭에 유용한 또 다른 뉴럴 임베딩 프로세스(700)를 도시한다. 도 7에 도시된 바와 같이, 뉴럴 임베딩 프로세스(700)의 일 실시예는 비디오로 시작한다(단계(710)). 비디오는 임베딩(단계(712))에 의해 다운샘플링되어서 추가 분류, 비교 또는 매칭(단계(714))을 위해 이용가능한 저차원 입력을 제공한다. 일부 실시예에서, 출력(716)은 직접 사용될 수 있는 반면에, 다른 실시예에서, 단계(716)으로부터의 파라미터들 또는 다른 데이터 출력이 임베딩 단계를 개선하도록 사용될 수 있다.
도 8은 메타데이터에서 뉴럴 임베딩 정보를 보존하기 위한 프로세스를 도시한다. 도 8에 도시된 바와 같이, 메타데이터를 생성하기에 적합한 뉴럴 임베딩 프로세스(800)의 일 실시예는 비디오로 시작한다(단계(810)). 비디오는 임베딩(단계(812))에 의해 다운샘플링되어서 비디오와 연관된 검색가능한 메타데이터에 삽입을 위해 이용가능한 저차원 입력을 제공한다(단계(814)). 일부 실시예에서, 출력(816)은 직접 사용될 수 있는 반면에, 다른 실시예에서, 단계(816)로부터의 파라미터들 또는 다른 데이터 출력이 임베딩 단계를 개선하도록 사용될 수 있다.
도 9는 신경망 시스템에서 스틸 또는 비디오 이미지로부터 도출된 잠재 벡터를 규정하고 활용하기 위한 일반적인 프로세스(900)를 도시한다. 도 9에 도시된 바와 같이, 처리는 일반적으로 훈련 단계 모드(902)에서 처음으로 발생하고, 추론 단계 모드(904)에서 훈련된 처리가 이어질 수 있다. 입력 이미지(910)는 인코딩을 위해 수축 신경 처리 경로(912)를 따라 통과된다. 수축 경로(912)(즉, 인코더)에서, 신경망 가중치는 고차원 입력 이미지로부터 더 작은 차원성을 갖는 잠재 벡터(914)로의 매핑을 제공하도록 학습된다. 팽창 경로(916)(디코더)는 잠재 벡터로부터 원본 입력 이미지를 복구하도록 연결하여 학습될 수 있다. 사실상, 아키텍처는 비디오 또는 이미지 처리 업무를 위해 가장 유용한 정보만을 인코딩할 수 있는 “정보 병목”을 생성할 수 있다. 훈련 후에, 다수의 온라인 목적은 단지 네트워크의 인코더 부분을 요구할 뿐이다.
도 10은 신경망 시스템에서 모듈 사이에 정보를 통과시키는 잠재 벡터를 사용하기 위한 일반적인 절차(1000)를 도시한다. 일부 실시예에서, 모듈은 다른 벤더(예를 들어, 벤더(A)(1002) 및 벤더(B)(1004))에 의해 제공될 수 있는 한편, 다른 실시예에서, 처리는 단일 처리 서비스 제공자에 의해 수행될 수 있다. 도 10은 인코딩을 위한 신경 처리 경로(1012)를 도시한다. 수축 경로(1012)(즉, 인코더)에서, 신경망 가중치는 고차원 입력 이미지로부터 더 작은 차원성을 갖는 잠재 벡터(1014)로의 매핑을 제공하도록 학습된다. 이러한 잠재 벡터(1014)는 분류기(1020)에 뒤이은 입력을 위해 사용될 수 있다. 일부 실시예에서, 분류기(1020)는 {이미지, 라벨} 쌍에 반대되는, {잠재, 라벨} 쌍으로 훈련될 수 있다. 분류기는 감소된 입력 복잡도, 및 뉴럴 임베딩 “백본” 네트워크에 의해 제공된 고품질 특징으로부터 혜택을 받는다.
도 11은 잠재 벡터를 포함하는 신경망 도출 정보의 버스 매개 통신을 도시한다. 예를 들어, 다중 센서 처리 시스템(1100)은 하나 이상의 이미지(1110)로부터 도출되고 인코딩을 위해 신경 처리 경로(1112)를 사용하여 처리된 정보를 보내도록 작동할 수 있다. 선택적 다른 이미지 데이터 또는 메타데이터와 함께 이러한 잠재 벡터는 통신 버스(1114) 또는 중앙집중식 처리 모듈(1120)로의 다른 적합한 상호연결을 통해 보낼 수 있다. 사실상, 이는 통신 버스의 대역폭 요구사항 및 중앙 처리 모듈(1120)에서 뒤이은 처리 요구사항을 감소시키도록 개별적인 영상화 시스템이 뉴럴 임베딩을 이용하는 것을 허용한다.
도 11에 대해 논의된 바와 같은 신경망의 버스 매개 통신은 데이터 전달 요구사항 및 비용을 크게 감소시킬 수 있다. 예를 들어, 도시, 발생 현장(venue), 또는 스포츠 경기장 IP-카메라 시스템은 각각의 카메라가 비디오 피드를 위해 잠재 벡터를 출력하도록 구성될 수 있다. 이러한 잠재 벡터는 중앙 처리 장치(예를 들어, 게이트웨이, 로컬 서버, VMS 등)에 보내진 이미지를 보충하거나 전체적으로 교체할 수 있다. 수신된 잠재 벡터는 비디오 분석을 수행하도록 사용되거나 인간 조작자에 제시될 원본 비디오 데이터와 조합될 수 있다. 이는 대형 데이터 파이프라인 및 대형의 고가 서버에 접근할 필요 없이 수백 또는 수천 개의 카메라에 대한 실시간 분석의 수행을 허용한다.
도 12는 식별 및 연계 목적을 위해 뉴럴 임베딩 및 잠재 벡터 정보를 사용하는 이미지 데이터베이스 검색을 위한 프로세스(1200)를 도시한다. 일부 실시예에서, 이미지(1210)는 잠재 벡터를 포함하는 데이터에 인코딩하기 위해 수축 신경 처리 경로(1212)를 따라 처리될 수 있다. 뉴럴 임베딩 네트워크로부터 초래하는 잠재 벡터는 데이터베이스(1220)에 저장될 수 있다. 잠재 벡터 정보(1214)를 포함하는 데이터베이스 쿼리는 일부 스킴에 따라 소정 잠재 벡터(X)에 표면적으로 가장 가까운 잠재 벡터를 식별하도록 작동하는 데이터베이스로 구성될 수 있다. 예를 들어, 일 실시예에서, 잠재 벡터 사이의 유클리디언 거리(예를 들어, (1222))는 다른 스킴이 가능함에도, 매치를 찾도록 사용될 수 있다. 결과 매치는 원본 소스 이미지 또는 메타데이터를 포함하는 다른 정보와 연관될 수 있다. 일부 실시예에서, 추가 인코딩이 가능하여, 이미지 메타데이터에 저장, 전송, 또는 추가될 수 있는 또 다른 잠재 벡터(1224)를 제공한다.
또 다른 실시예로서, 도시, 발생 현장, 또는 스포츠 경기장 IP-카메라 시스템은 각각의 카메라가 비디오 분석을 위해 이용가능하게 저장되거나 그렇지 않으면 구성된 잠재 벡터를 출력하도록 구성될 수 있다. 이들 잠재 벡터는 대량의 이미지 데이터의 실시간 검색을 제공할 필요 없이, 객체, 인물, 장면, 또는 다른 이미지 정보를 식별하도록 검색될 수 있다. 이는 대형 데이터 파이프라인 및 대형의 고가 서버에 접근할 필요 없이, 특정 개인 또는 장면과 연관된 예를 들어, 빨간색 차를 찾도록 수백 또는 수천 개의 카메라에 대한 실시간 비디오 또는 이미지 분석의 수행을 허용한다.
도 13은 잠재 벡터의 사용자 조작을 위한 프로세스(1300)를 도시한다. 예를 들어, 이미지는 잠재 벡터를 포함하는 데이터에 인코딩하기 위해 수축 신경 처리 경로를 따라 처리될 수 있다. 사용자는 벡터 요소를 직접 변경함으로써 또는 여러 잠재 벡터(잠재 공간 산술 벡터(1304))를 조합함으로써 신규한 이미지를 얻도록 입력 잠재 벡터를 조작(1302)할 수 있다. 잠재 벡터는 팽창 경로 처리(1320)를 사용하여 팽창되어 생성된 이미지(1322)를 제공할 수 있다. 일부 실시예에서, 이러한 절차는 소망하는 이미지를 제공하도록 반복되거나 이터레이팅될 수 있다.
이해될 수 있는 바와 같이, 여기 기재된 카메라 시스템 및 방법은 서버, 데스크탑 컴퓨터, 랩탑, 태블릿, 또는 스마트 폰과 같은 장치와의 상호작용을 위해 유선 또는 무선 연결 서브시스템에 국부적으로 또는 연결을 통해 작동할 수 있다. 데이터 및 제어 신호는 무선 네트워크, 개인 영역 네트워크, 셀룰러 네트워크, 인터넷, 또는 클라우드 매개 데이터 소스를 포함하는 다양한 외부 데이터 소스 사이에 수신, 생성, 또는 전달될 수 있다. 추가로, 로컬 데이터의 소스(예를 들어, 하드 드라이브, 솔리드 스테이트 드라이브, 플래시 메모리, 또는 SRAM 또는 DRAM과 같은 동적 메모리를 포함하는 임의의 다른 적합한 메모리)는 사용자-특정 기본 설정 또는 프로토콜의 국부 데이터 저장소를 허용할 수 있다. 일 특정 실시예에서, 다중 통신 시스템이 제공될 수 있다. 예를 들어, 직접 와이파이(Wi-Fi) 연결(802.11b/g/n)은 별개의 4G 셀룰러 연결로도 사용될 수 있다.
원격 서버 실시예로의 연결은 클라우드 컴퓨팅 환경에서도 실행될 수 있다. 클라우드 컴퓨팅은 가상화를 통해 신속히 공급되고 최소 관리 노력 또는 서비스 제공자 상호작용으로 해제되고, 그런 후에 따라서 크기조정될 수 있는 구성가능한 컴퓨팅 자원(예를 들어, 네트워크, 서버, 저장소, 어플리케이션, 및 서비스)의 공유 풀에 대한 보편적이고, 편리한, 온 디맨드 네트워크 접근을 가능하게 하기 위한 모델로서 규정될 수 있다. 클라우드 모델은 다양한 특성(예를 들어, 온 디맨드 셀프-서비스, 광역 네트워크 액세스, 자원 풀링, 급속한 탄성, 측정 서비스 등), 서비스 모델(예를 들어, 서비스형 소프트웨어(“SaaS”), 서비스형 플랫폼(“PaaS”), 서비스형 인프라스트럭처(“IaaS”), 및 배치 모델(예를 들어, 사설 클라우드, 커뮤니티 클라우드, 퍼블릭 클라우드, 하이브리드 클라우드 등)로 구성될 수 있다.
본 명세서에 걸쳐 “일 실시예”, “하나의 실시예”, “일 예”, 또는 “하나의 예”에 대한 참조는 실시예 또는 실시예와 연결해서 기재되는 특정 특징, 구조, 또는 특성이 본 발명에 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 본 명세서에 걸쳐 다양한 위치에서 어구 “일 실시예에서”, “하나의 실시예에서”, “일 예”, 또는 “하나의 예”의 등장은 반드시 동일한 실시예 또는 실시예를 모두 참조하지 않는다. 게다가, 특정 특징, 구조, 데이터베이스, 또는 특성은 하나 이상의 실시예 또는 실시예에서 임의의 적합한 조합 및/또는 서브 조합으로 조합될 수 있다. 덧붙여, 여기에 제공된 도면은 해당 기술분야의 통상의 기술자에게 설명 목적을 위한 것이고 도면은 반드시 축척에 따라 그려지지 않음이 인정되어야만 한다.
기재된 도면에서 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 가능한 실행의 아키텍처, 기능성, 및 작동을 도시하도록 의도된다. 이러한 관점에서, 흐름도 또는 블록도에 각각의 블록은 특정 로직 기능(들)을 실행하기 위한 하나 이상의 실행가능한 명령어를 포함하는 모듈, 세그먼트, 또는 코드의 부분을 나타낼 수 있다. 또한, 블록도 및/또는 흐름도의 각각의 블록, 및 블록도 및/또는 흐름도에 블록의 조합이 특정 기능 또는 작동 또는 특수 목적 하드웨어 및 컴퓨터 명령어의 조합을 수행하는 특수 목적 하드웨어 기반 시스템에 의해 실행될 수 있음이 언급될 것이다. 이들 컴퓨터 프로그램 명령어는 또한, 컴퓨터 판독가능한 매체에 저장된 명령어가 흐름도 및/또는 블록도 블록 또는 블록들에 특정된 기능/작동을 실행하는 명령 수단을 포함하는 제조 물품을 생성하는 바와 같이 특정 방식으로 컴퓨터 또는 다른 프로그램 가능 데이터 처리 기구가 기능하게 할 수 있는 컴퓨터 판독가능한 매체에 저장될 수 있다.
본 발명에 따른 실시예는 기구, 방법, 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 발명은 전체적으로 하드웨어-포함된 실시예, 전체적으로 소프트웨어-포함된 실시예(펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함), 또는 모두 일반적으로 여기에 “회로”, “모듈”, 또는 “시스템”으로서 언급될 수 있는 소프트웨어 및 하드웨어 측면을 조합하는 실시예의 형태를 취할 수 있다. 또한, 본 발명의 실시예는 매체에 구현된 컴퓨터 이용가능한 프로그램 코드를 갖는 표현의 임의의 유형 매체에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 이상의 컴퓨터 이용가능한 또는 컴퓨터 판독가능한 매체의 임의의 조합이 활용될 수 있다. 예를 들어, 컴퓨터 판독가능한 매체는 휴대가능한 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM) 장치, 읽기 전용 메모리(ROM) 장치, 소거형 프로그램 가능 읽기-전용 메모리(EPROM 또는 플래시 메모리) 장치, 휴대가능한 컴팩트 디스크 읽기-전용 메모리(CDROM), 광학 저장 장치, 및 자기 저장 장치 중 하나 이상을 포함할 수 있다. 본 발명의 작동을 실행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 그러한 코드는 소스 코드로부터 코드가 실행될 장치 또는 컴퓨터에 적합한 컴퓨터 판독가능한 어셈블리 언어 또는 기계 코드로 컴파일될 수 있다.
본 발명의 다수의 수정 및 다른 실시예가 다음의 기재 및 연관된 도면에 제시된 개시의 혜택을 갖는 해당 기술분야의 당업자의 마음에 떠오를 것이다. 그러므로, 본 발명은 개시된 특정 실시예로 한정되지 않고 수정 및 실시예가 첨부된 청구항의 범위 내에 포함되도록 의도됨이 이해된다. 또한 본 발명의 다른 실시예가 여기 구체적으로 개시되지 않은 요소/단계의 부재 시에 실시될 수 있음이 이해된다.

Claims (21)

  1. 뉴럴 임베딩 정보로부터 적어도 부분적으로 도출된 정보를 사용하도록 배열된 이미지 처리 시스템의 제 1 부분; 및
    적어도 부분적으로 상기 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 사용된 상기 이미지 처리 시스템의 제 2 부분을 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  2. 제 1항에 있어서,
    상기 뉴럴 임베딩 정보는 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  3. 제 1항에 있어서,
    상기 뉴럴 임베딩 정보는 상기 이미지 처리 시스템에서 모듈들 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  4. 제 1항에 있어서,
    상기 뉴럴 임베딩은 상기 이미지 처리 시스템에서 하나 이상의 신경망 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  5. 뉴럴 임베딩 정보를 생성하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 이미지 처리 시스템의 제 1 부분; 및
    적어도 부분적으로 상기 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 배열된 상기 이미지 처리 시스템의 제 2 부분을 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  6. 제 5항에 있어서,
    상기 뉴럴 임베딩 정보는 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  7. 제 5항에 있어서,
    상기 뉴럴 임베딩 정보는 상기 이미지 처리 시스템에서 모듈들 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  8. 제 5항에 있어서,
    상기 뉴럴 임베딩은 상기 이미지 처리 시스템에서 하나 이상의 신경망 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  9. 신경 처리 시스템으로부터 도출된 뉴럴 임베딩 정보를 사용하여 분류, 추적, 및 매칭 중 적어도 하나를 위해 배열된 이미지 처리 시스템의 제 1 부분; 및;
    적어도 부분적으로 상기 뉴럴 임베딩 정보에 기반해서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 수정하도록 배열된 상기 이미지 처리 시스템의 제 2 부분을 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  10. 제 9항에 있어서,
    상기 뉴럴 임베딩 정보는 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  11. 제 9항에 있어서,
    상기 뉴럴 임베딩 정보는 상기 이미지 처리 시스템에서 모듈들 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  12. 제 9항에 있어서,
    상기 뉴럴 임베딩은 상기 이미지 처리 시스템에서 하나 이상의 신경망 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  13. 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 이미지 처리 시스템의 제 1 부분; 및
    이미지 또는 비디오 메타데이터 내의 상기 뉴럴 임베딩 정보를 보존하도록 배열된 상기 이미지 처리 시스템의 제 2 부분을 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  14. 제 13항에 있어서,
    상기 뉴럴 임베딩 정보는 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  15. 제 13항에 있어서,
    상기 뉴럴 임베딩 정보는 상기 이미지 처리 시스템에서 모듈들 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  16. 제 13항에 있어서,
    상기 뉴럴 임베딩은 상기 이미지 처리 시스템에서 하나 이상의 신경망 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  17. 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 이미지 처리 시스템의 제 1 부분; 및
    상기 신경 처리 시스템으로부터 도출된 뉴럴 임베딩 정보를 사용하여 분류, 추적, 및 매칭 중 적어도 하나를 위해 배열된 상기 이미지 처리 시스템의 제 2 부분을 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  18. 제 17항에 있어서,
    상기 뉴럴 임베딩 정보는 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  19. 제 17항에 있어서,
    상기 뉴럴 임베딩 정보는 상기 이미지 처리 시스템에서 모듈들 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  20. 제 17항에 있어서,
    상기 뉴럴 임베딩은 상기 이미지 처리 시스템에서 하나 이상의 신경망 사이에 보내진 적어도 하나의 잠재 벡터를 포함하는, 스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인.
  21. 뉴럴 임베딩 정보를 제공하도록 신경 처리 시스템을 사용하여 데이터 차원성을 감소시키고 이미지, 이미지들, 또는 다른 데이터를 효과적으로 다운샘플링하도록 배열된 신경망 알고리즘을 갖는 제 1 부분;
    신경 처리 시스템으로부터 도출된 뉴럴 임베딩 정보를 사용하여 분류, 추적, 및 매칭 중 적어도 하나를 위해 배열된 신경망 알고리즘을 갖는 제 2 부분; 및
    상기 신경망 알고리즘의 상기 제 1 부분 및 상기 제 2 부분의 작동을 최적화하는 훈련 절차를 포함하는, 신경망 훈련 시스템.
KR1020237008263A 2020-08-28 2021-08-27 뉴럴 임베딩을 가지는 카메라 이미지 또는 비디오 처리 파이프라인 KR20230058417A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063071966P 2020-08-28 2020-08-28
US63/071,966 2020-08-28
PCT/IB2021/057877 WO2022043942A1 (en) 2020-08-28 2021-08-27 Camera image or video processing pipelines with neural embedding

Publications (1)

Publication Number Publication Date
KR20230058417A true KR20230058417A (ko) 2023-05-03

Family

ID=80352877

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237008263A KR20230058417A (ko) 2020-08-28 2021-08-27 뉴럴 임베딩을 가지는 카메라 이미지 또는 비디오 처리 파이프라인

Country Status (8)

Country Link
US (1) US20220070369A1 (ko)
EP (1) EP4205069A1 (ko)
JP (1) JP2023540930A (ko)
KR (1) KR20230058417A (ko)
CN (1) CN116157805A (ko)
CA (1) CA3193037A1 (ko)
TW (1) TW202223834A (ko)
WO (1) WO2022043942A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220078283A (ko) * 2020-12-03 2022-06-10 삼성전자주식회사 뉴럴 네트워크 프로세서를 구비하는 이미지 처리 장치 및 이의 동작 방법
US20230125040A1 (en) * 2021-10-14 2023-04-20 Spectrum Optix Inc. Temporally Consistent Neural Network Processing System
WO2023234674A1 (ko) * 2022-05-30 2023-12-07 삼성전자 주식회사 신경망 모델을 이용한 영상 신호 처리 방법 및 이를 수행하기 위한 컴퓨팅 장치

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053681B2 (en) * 2010-07-07 2015-06-09 Fotonation Limited Real-time video frame pre-processing hardware
US9179062B1 (en) * 2014-11-06 2015-11-03 Duelight Llc Systems and methods for performing operations on pixel data
US10860898B2 (en) * 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
US20190156200A1 (en) * 2017-11-17 2019-05-23 Aivitae LLC System and method for anomaly detection via a multi-prediction-model architecture
US10997433B2 (en) * 2018-02-27 2021-05-04 Nvidia Corporation Real-time detection of lanes and boundaries by autonomous vehicles
US11215999B2 (en) * 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11508049B2 (en) * 2018-09-13 2022-11-22 Nvidia Corporation Deep neural network processing for sensor blindness detection in autonomous machine applications
US11076103B2 (en) * 2018-09-13 2021-07-27 Spectrum Optix Inc. Photographic underexposure correction using a neural network
WO2020080665A1 (en) * 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
JP7250126B2 (ja) * 2018-11-27 2023-03-31 レイセオン カンパニー 自動エンコーダを用いる人工画像生成のためのコンピュータアーキテクチャ
US11037051B2 (en) * 2018-11-28 2021-06-15 Nvidia Corporation 3D plane detection and reconstruction using a monocular image
US10311334B1 (en) * 2018-12-07 2019-06-04 Capital One Services, Llc Learning to process images depicting faces without leveraging sensitive attributes in deep learning models
US11170299B2 (en) * 2018-12-28 2021-11-09 Nvidia Corporation Distance estimation to objects and free-space boundaries in autonomous machine applications
IT201900000133A1 (it) * 2019-01-07 2020-07-07 St Microelectronics Srl "Procedimento di elaborazione di immagini, sistema, veicolo e prodotto informatico corrispondenti"
US10742892B1 (en) * 2019-02-18 2020-08-11 Samsung Electronics Co., Ltd. Apparatus and method for capturing and blending multiple images for high-quality flash photography using mobile electronic device
CN113811886B (zh) * 2019-03-11 2024-03-19 辉达公司 自主机器应用中的路口检测和分类
US11579629B2 (en) * 2019-03-15 2023-02-14 Nvidia Corporation Temporal information prediction in autonomous machine applications
US11468582B2 (en) * 2019-03-16 2022-10-11 Nvidia Corporation Leveraging multidimensional sensor data for computationally efficient object detection for autonomous machine applications
DE112020002126T5 (de) * 2019-04-26 2022-02-24 Nvidia Corporation Erkennung von kreuzungsposen in autonomen maschinenanwendungen
WO2020236446A1 (en) * 2019-05-17 2020-11-26 Corning Incorporated Predicting optical fiber manufacturing performance using neural network
US11551447B2 (en) * 2019-06-06 2023-01-10 Omnix Labs, Inc. Real-time video stream analysis system using deep neural networks
US11544823B2 (en) * 2019-06-12 2023-01-03 Intel Corporation Systems and methods for tone mapping of high dynamic range images for high-quality deep learning based processing

Also Published As

Publication number Publication date
US20220070369A1 (en) 2022-03-03
EP4205069A1 (en) 2023-07-05
TW202223834A (zh) 2022-06-16
CA3193037A1 (en) 2022-03-03
JP2023540930A (ja) 2023-09-27
CN116157805A (zh) 2023-05-23
WO2022043942A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
US11704775B2 (en) Bright spot removal using a neural network
US11854167B2 (en) Photographic underexposure correction using a neural network
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
US20220070369A1 (en) Camera Image Or Video Processing Pipelines With Neural Embedding
CN110428366A (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
US11776129B2 (en) Semantic refinement of image regions
JP2023056056A (ja) データ生成方法、学習方法及び推定方法
KR20200092492A (ko) 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
US20230125040A1 (en) Temporally Consistent Neural Network Processing System
US20230132230A1 (en) Efficient Video Execution Method and System
US11889175B2 (en) Neural network supported camera image or video processing pipelines
KR102389284B1 (ko) 인공지능 기반 이미지 인페인팅 방법 및 디바이스
KR102389304B1 (ko) 주변 영역을 고려한 이미지 인페인팅 방법 및 디바이스
Hajisharif Computational Photography: High Dynamic Range and Light Fields
CN117956278A (zh) 自动对焦的方法和装置