KR20210055038A - 자율 매장 추적 시스템 - Google Patents

자율 매장 추적 시스템 Download PDF

Info

Publication number
KR20210055038A
KR20210055038A KR1020217004538A KR20217004538A KR20210055038A KR 20210055038 A KR20210055038 A KR 20210055038A KR 1020217004538 A KR1020217004538 A KR 1020217004538A KR 20217004538 A KR20217004538 A KR 20217004538A KR 20210055038 A KR20210055038 A KR 20210055038A
Authority
KR
South Korea
Prior art keywords
camera
image
store
person
cameras
Prior art date
Application number
KR1020217004538A
Other languages
English (en)
Inventor
마리우스 부이바스
존 퀸
케일리 페이굼
처버 페트레
필립 피에크니브스키
알렉산더 뱁스트
소흘 유세피사히
친-창 쿠오
Original Assignee
악셀 로보틱스 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/036,754 external-priority patent/US10373322B1/en
Priority claimed from US16/138,278 external-priority patent/US10282720B1/en
Priority claimed from US16/254,776 external-priority patent/US10282852B1/en
Priority claimed from US16/404,667 external-priority patent/US10535146B1/en
Application filed by 악셀 로보틱스 코포레이션 filed Critical 악셀 로보틱스 코포레이션
Publication of KR20210055038A publication Critical patent/KR20210055038A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B7/00Measuring arrangements characterised by the use of electric or magnetic techniques
    • G01B7/16Measuring arrangements characterised by the use of electric or magnetic techniques for measuring the deformation in a solid, e.g. by resistance strain gauge
    • G01B7/18Measuring arrangements characterised by the use of electric or magnetic techniques for measuring the deformation in a solid, e.g. by resistance strain gauge using change in resistance
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/14Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups for weighing suspended loads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/40Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight
    • G01G19/413Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight using electromechanical or electronic computing means
    • G01G19/414Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight using electromechanical or electronic computing means using electronic computing means only
    • G01G19/4144Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight using electromechanical or electronic computing means using electronic computing means only for controlling weight of goods in commercial establishments, e.g. supermarket, P.O.S. systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01GWEIGHING
    • G01G19/00Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups
    • G01G19/40Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight
    • G01G19/42Weighing apparatus or methods adapted for special purposes not provided for in the preceding groups with provisions for indicating, recording, or computing price or other quantities dependent on the weight for counting by weighing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/08Systems determining position data of a target for measuring distance only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/01Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/13Receivers
    • G01S19/14Receivers specially adapted for specific applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06K9/00369
    • G06K9/00771
    • G06K9/6267
    • G06K9/6271
    • G06K9/6288
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • H04N5/232
    • H04N5/247
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/21Collision detection, intersection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Electromagnetism (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)

Abstract

카메라 이미지를 분석하여 무인 상점에 있는 사람을 추적하고 그리고 추적된 사람이 상점에 있는 물품을 가져가거나 이동하는 때를 결정하는 시스템이 개시된다. 시스템은 사람의 위치 주위의 영향 볼륨의 필드를 연관시킬 수 있고; 이 볼륨과 선반과 같은 물품 저장 구역의 교차는, 선반에 있는 물품의 변경에 대해 확인하도록 시스템을 트리거시킬 수 있다. 선반에서 가져간, 선반에 놓은 또는 선반에서 이동된 물품은 선반의 이전 이미지 및 이후 이미지를 프로세싱하는 신경망에 의해 결정될 수 있다. 사람 추적은 바닥에 수평인 평면 상에 투영되는, 어안 천장 카메라로부터의 이미지를 분석함으로써 수행될 수 있다. 투영된 천장 카메라 이미지는 쇼핑객 위치를 인식하도록 훈련된 신경망을 사용하여 분석될 수 있다. 무인 상점은 카메라, 라이트, 프로세서 및 네트워킹을 포함하는 모듈식 천장 및 선반 고정물을 포함할 수 있다.

Description

무인 상점 추적 시스템
[001] 본 발명의 하나 이상의 실시예는 이미지 분석, 인공 지능, 자동화, 카메라 보정, 카메라 배치 최적화, 및 판매 시점(point of sale) 시스템과의 컴퓨터 상호작용 분야와 관련된다. 보다 구체적으로, 제한은 아니지만, 본 발명의 하나 이상의 실시예는, 다수의 카메라로부터의 이미지를 분석하는 카메라-기반 시스템이, 무인 상점(autonomous store)에 있는 물품, 이를테면 상점 선반에 있는 제품을 추적하고 쇼핑객들이 어떤 물품을 가져갔는지, 이동했는지 또는 교체했는지를 결정할 수 있게 한다. 하나 이상의 실시예는 쇼핑객이 이용하는 물품의 속성의 정확성을 증가시키기 위해, 이미지 분석과 더불어 제품의 수량을 측정하거나 추론하는 수량 센서를 활용한다. 또한, 시각적 외형(visual appearance)을 기반으로 제품의 유형을 추론하기 위해 이미지 분석이 사용될 수 있다.
[002] 보안 카메라를 수반하는 이전의 시스템은 상대적으로 제한된 사람 추적, 카운팅, 로이터 검출(loiter detection) 및 물체 탬퍼링(tampering) 분석을 한다. 이러한 시스템은 카메라와 NVR(network video recorder)에 활용되었던 비교적 간단한 알고리즘을 사용한다.
[003] 소매(retail) 분석 해법과 같은 다른 시스템은 소매 공간에서 추가의 카메라 및 센서를 활용하여, 통상적 카운팅 및 로이터 검출을 수반하는 비교적 간단한 방식으로 사람을 추적한다.
[004] 현재, 초기 프로토타이핑 단계(prototyping phase)에 있는 초기 "그랩-앤-고(grab-n-go)" 시스템이 있다. 이러한 시스템은, 상점으로 걸어 들어와서, 원하는 것을 가져가고, 원하지 않는 것은 제자리에 놓고, 가지고 나가는 것에 대해 요금이 청구된 사람을 추적하기 위한 것이다. 이러한 해법은 일반적으로 지각을 위해 추가의 센서 및/또는 라디오파를 사용하는 반면, 다른 해법은 잠재적으로 보정되지 않는 카메라 또는 최적화되지 않은 카메라 배치를 사용하는 것으로 보인다. 예를 들어, 일부 해법은 선반 상의 무게 센서를 사용하여 선반에서 가져간 제품이 무엇인지 결정할 수 있지만; 이러한 무게 센서만으로는 특정 쇼핑객이 제품을 가져가는 것 또는 유사한 질량 또는 형상의 다른 제품으로부터 제품의 식별을 결부시키기에는 충분하지 않다(예를 들어, 다른 브랜드의 탄산음료 캔이 동일한 기하학적 구조 및 질량을 가질 수 있음). 현재까지 공지된 모든 카메라-기반 그랩-앤-고(grab-n-go) 회사는, 사람 추적, 행동(action) 검출, 물체 인식의 전반적 문제의 부분을 다루는 학술 논문로부터 도출된, 동일한 기본 소프트웨어 및 하드웨어 빌딩 블록을 사용하는 알고리즘을 활용한다.
[005] 자동화된 소매 부문의 엔티티에 의해 활용되는 아카데믹 빌딩 블록은, 이 스페이스에서 컴퓨터 비전 알고리즘 및 오픈 소스 소프트웨어를 둘러싼 방대한 작업을 포함한다. 이용가능한 기본 툴킷(toolkit)은 딥 러닝, 컨볼루션 신경망(convolutional neural network)들, 물체 검출, 카메라 보정, 행동 검출, 비디오 주석(video annotation), 파티클 필터링(particle filtering) 및 모델-기반 추정을 활용한다.
[006] 지금까지, 공지된 해법이나 시스템들 중 어느 것도 진정한 자동화된 상점을 가능하게 하지 않으며, 이 공지된 해법이나 시스템은 추가 센서를 요구하고, 필요한 것보다 더 많은 카메라를 사용하고, 상점 내 기존카메라, 예를 들어, 보안 카메라와 통합되지 않으며, 따라서 초기 자본 지출이 더 많이 요구된다. 또한, 공지된 해법은 카메라를 보정하지 않고, 이기종(heterogenous) 카메라 유형이 활용되게 허용하거나 또는 카메라에 대한 최적의 배치를 결정하고, 따라서 이들의 정확도를 제한할 수 있다.
[007] 자동화된 상점 또는 유사한 애플리케이션의 경우, 고객이 입구(entry point)에서 또는 다른 편리한 위치에서 승인(authorization)을 획득하게 허용한 다음, 이 승인을 상점이나 부지(site) 내 다른 위치로 자동으로 연장시키는 것이 중요할 수 있다. 예를 들어, 자동화된 주유소의 고객은 주유기에 신용 카드를 제공하여 가스를 구매한 다음, 주유소의 자동화된 편의점에 입장해 제품을 구매할 수 있고; 이상적으로는, 주유기에서 획득된 신용 카드 승인이 편의점으로 연장되어, 고객이 상점에 입장해(가능하게는, 이 고객을 위해 자동으로 잠금해제되는 잠긴 문을 통해) 제품을 가져가고, 이 제품을 동일한 카드로 요금이 청구되게 할 수 있다.
[008] 진입 통제 시스템에 통합된 승인 시스템은 당업계에 공지되어 있다. 예로, 사람이 키 카드를 제시하거나 액세스 코드를 입력하는 것을 요구하는 건물 진입 통제 시스템이 포함된다. 그러나, 이러한 시스템은 한 지점(진입 위치)에서 획득된 승인을 다른 위치로 연장하지 않는다. 한 위치에서 추가의 위치로 승인을 연장하는 공지된 해법은 일반적으로, 승인이 필요한 각각의 추가 위치에서 사용자가 크리덴셜(credential)을 제시하는 것을 요구한다. 예를 들어, 유람선에 있는 또는 이벤트 손님에게는 신용 카드 또는 계정에 링크되는 스마트 손목 밴드가 제공될 수 있고; 이러한 손목 밴드는 추가 제품을 구매하거나 잠긴 구역에 입장하는 데 사용될 수 있다. 또 다른 예는, 미국 특허 6,193,154호(" 연료 분배 펌프를 수락하는 신용 카드와 협력하여 상품을 판매하기 위한 방법 및 장치")에 개시된 시스템이며, 이는 사용자가 주유기(신용 카드를 사용하여)에서 승인되고, 영수증에 인쇄되는 코드를 획득할 수 있게 하며, 이 코드는 이후 자동 판매기에서 상품을 획득하기 위해 다른 위치에서 사용될 수 있다. 이러한 모든 공지된 시스템의 잠재적인 제한은 한 지점에서 다른 지점으로 승인을 연장하기 위해 추가 디바이스 또는 사용자에 의한 추가 행동이 요구된다는 것이다. 카메라를 통한 제1 지점에서 제2 지점으로의 사용자의 추적만을 사용하여, 한 지점(예를 들어, 주유기)에서 다른 지점(예를 들어, 상점 또는 자동 판매기)으로 승인을 자동으로 연장시키는 어떠한 시스템도 공지되어 있지 않다. 카메라는 널리 이용가능하고 이미 종종 부지 또는 상점에 설치되어 있기 때문에, 한 위치에서 다른 위치로 승인을 연장시키기 위해 카메라로 사용자를 추적하는 것은, 사용자에게 코드 또는 손목 밴드에 대한 부담을 주지 않고 그리고 추가 센서나 입력 디바이스를 요구하지 않고 상당한 편의성과 자동화를 부가할 수 있다.
[009] 자동화된 상점을 위한 기존의 시스템의 다른 제한은 사람 추적 접근방식의 복잡성이다. 이러한 시스템은 통상적으로 임의의 카메라 위치로부터의 다수의 카메라 뷰(view)를 기반으로 사람의 관절(joint) 또는 랜드마크를 추적하도록 시도하는 복잡한 알고리즘을 사용한다. 이 접근방식은 오류가 발생하기 쉬울 수 있고 그리고 이 접근 방식은 실시간 추적을 지원하기 위한 상당한 처리 용량을 요구한다. 보다 간단한 사람 추적 접근방식은 추적 프로세스의 견고성과 효율성을 향상시킬 수 있다.
[0010] 자동화된 상점은 상점을 두루 이동하는 쇼핑객과 상점 내에서 쇼핑객이 구매할 수 있는 물품 둘 다를 추적할 필요가 있다. 상점 선반 상의 제품과 같은 물품을 추적하기 위한 기존의 방법은 각각의 물품과 연관된 전용 센서를 요구하거나, 이미지 분석을 사용하여 쇼핑객의 손에 있는 물품을 관찰한다. 전용 센서 접근방식은 각각의 모든 상점 선반에 대해 잠재적으로 값비싼 하드웨어를 요구한다. 현재까지 사용된 이미지 분석 방법은 오류가 발생하기 쉽다. 카메라는 어디에나 있고(ubiquitous) 비용이 저렴하고 이동 부품이 요구되지 않기 때문에 이미지 분석이 매력적이지만, 지금까지, 상점 선반으로부터의(또는 상점 선반으로의) 물품 이동의 이미지 분석은 효과가 없었다. 특히, 단일 카메라 뷰와 이미지가 차이가 나는 것과 같이, 간단한 이미지 분석 방법은 폐색(occlusion)을 잘 처리할 수 없거나, 또는 예를 들어, 유사한 제품의 수직 스택에서 가져간 물품의 양을 결정할 수 없다.
[0011] 적어도 위에서 설명된 제한들을 위해, 투영식 이미지 물품 추적 시스템(projected image item tracking system)이 필요한다.
[0012] 본 명세서에서 설명되는 하나 이상의 실시예는, 예를 들어, 물품을 추적하기 위해 투영된 이미지를 결합하는 자동화된 상점 시스템에서 사용되는 것과 같은 투영식 이미지 물품 추적 시스템에 관련된다. 하나 이상의 실시예는 물품 및 물품 저장 구역을 포함하는 상점의 3D 모델을 획득하도록 구성된 프로세서를 포함한다. 프로세서는 상점의 카메라로부터 각 시간 시퀀스의 이미지를 수신하고 ―시간 시퀀스의 이미지는 일정 시간 기간에 걸쳐 캡처됨―, 각각의 카메라로부터의 시간 시퀀스의 이미지들 및 상점의 3D 모델을 분석하여 시간 시퀀스의 이미지에 기반하여 상점 내 사람을 검출하고, 시간 기간에 걸쳐 사람의 궤적을 계산하고, 시간 기간 내의 상호작용 시간 기간 동안 물품 저장 구역들 중 사람의 궤적에 근접한 물품 저장 구역을 식별하고, 상호작용 시간 기간 동안, 물품 저장 구역 내 물품들 중 이동하는 물품을 식별하기 위해 시간 시퀀스의 이미지의 2개 이상의 이미지를 분석하며, 2개 이상의 이미지는 상호작용 시간 기간 내에 또는 상호작용 시간 기간에 시간 상 근접하여 캡처되고 2개 이상의 이미지는 물품 저장 구역의 뷰를 포함하고 물품의 모션을 사람과 결부시킨다. 시스템의 하나 이상의 실시예는 추적을 위해 이미지에 의존하며, 물품 태그, 예를 들어, 조작되는 물품에 대한 RFID 태그 또는 다른 식별자를 활용하지 않아 식별자 스캐너가 요구되지 않는다. 또한, 본 발명의 하나 이상의 실시예는, 사용자의 진입 및 퇴장이, 즉, 이미지 및 컴퓨터 비전을 통해, 추적기의 시작 또는 중지를 트리거하는 "가상 문(virtual door)"을 가능하게 한다. 다른 실시예는, 예를 들어, QR 코드 또는 블루투스를 사용하여, 물리적 게이트 또는 전자 체크-인 및 체크-아웃을 활용할 수 있지만, 이러한 해법은 본 발명의 다른 실시예가 요구하지 않는 복잡성을 부가한다.
[0013] 프로세서의 적어도 하나의 실시예는 추가로, 판매 시점 컴퓨터와 인터페이싱하고 계산원 없이, 사람에게 물품과 연관된 금액을 청구하도록 구성된다. 선택적으로, 물품의 명세표는 사람과 연관된 모바일 디바이스로 전송되며, 프로세서 또는 판매 시점 컴퓨터는 물품이 정확하거나 미결상태(in dispute)라는 확인을 모바일 디바이스로부터 수락하도록 구성된다. 하나 이상의 실시예에서, 특정 사용자와 연관된 물품의 목록, 예를 들어, 쇼핑객과 연관된 쇼핑 카트 목록은 쇼핑객에 가장 가까운 또는 쇼핑객에 근접한 디스플레이에 전송된다.
[0014] 하나 이상의 실시예에서, 시간 시퀀스의 이미지들 중 각각의 이미지는 2D 이미지이고, 프로세서는 사람의 3D 위치 및 방향, 그리고 시간 시퀀스의 이미지에서 사람의 2개 이상의 2D 투영으로부터의 적어도 하나의 신체 랜드마크로 이루어진, 사람의 궤적을 계산한다.
[0015] 하나 이상의 실시예에서, 프로세서는 추가로, 시간 기간 동안 시점에서 사람 주위의 영향 볼륨의 3D 필드(3D field of influence volume)를 계산하도록 구성된다.
[0016] 하나 이상의 실시예에서, 프로세서는 상호작용 시간 기간 동안 사람의 궤적에 근접한 물품 저장 구역을 식별하고, 상호작용 기간 동안 사람 주위의 영향 볼륨의 3D 필드와 교차하는 저장 구역의 3D 위치를 활용한다. 하나 이상의 실시예에서, 프로세서는 시간 기간 동안의 시점에서 사람에 대한 다수의 랜드마크에 대한 공간적 확률 분포를 활용하여 사람 주위의 영향 볼륨의 3D 필드를 계산하며, 다수의 랜드마크의 각각의 랜드마크는 사람의 신체 부위에 대한 위치에 대응한다. 하나 이상의 실시예에서, 사람 주위의 영향 볼륨의 3D 필드는 임계 거리 이하인 다수의 랜드마크 중 가장 가까운 랜드마크까지의 거리를 갖는 지점을 포함한다. 하나 이상의 실시예에서, 사람 주위의 영향 볼륨의 3D 필드는 다수의 랜드마크의 각각의 랜드마크에 대한 가능성 존(zone)의 합체(union)를 포함하고, 가능성 존들의 각각의 가능성 존은 대응하는 랜드마크에 대한 공간 확률 분포의 임계 확률을 포함한다. 하나 이상의 실시예에서, 프로세서는, 물리 모델을 기반으로 시간 기간 동안 하나 이상의 시점에서 다수의 랜드마크에 대한 예측된 공간 확률 분포의 계산 및 시간 시퀀스의 이미지들에서 다수의 랜드마크 중 하나 이상의 랜드마크의 관찰을 기반으로 시간 기간 동안 하나 이상의 시점에서 정정된 공간 확률 분포의 계산을 통해, 시간 기간 동안의 시점에서 사람에 대한 다수의 랜드마크에 대한 공간 확률 분포를 계산한다. 하나 이상의 실시예에서, 물리 모델은 랜드마크의 위치 및 속도 및 그에 따른, 계산된 영향 필드를 포함한다. 이 정보는 직접 관찰되지 않은 공간 및 한 번에 필드와 연관된 랜드마크의 상태를 예측하는 데 사용될 수 있고, 이에 따라서 관찰된 랜드마크를 보간하거나 확대하는 데 활용될 수 있다.
[0017] 하나 이상의 실시예에서, 프로세서는 추가로, 시간 시퀀스의 이미지들 중 2개 이상의 이미지를 분석하여, 물품의 모션을, 가져가기, 놓기 또는 이동을 포함하는 모션 유형으로서 분류하도록 구성된다.
[0018] 하나 이상의 실시예에서, 프로세서는 시간 시퀀스의 이미지들 중 2개 이상의 이미지를 분석하여, 상호작용 시간 기간 동안 물품 저장 구역 내에서 이동하는 물품을 식별한다. 구체적으로, 프로세서는 이미지에 걸친 변화로부터 물품을 인식하도록 훈련된 신경망을 사용하거나 획득하고, 2개 이상의 이미지에 대한 신경망의 입력 계층을 설정하고, 신경망의 출력 계층을 기반으로 물품과 연관된 확률을 계산한다. 하나 이상의 실시예에서, 신경망은 추가로, 물품에 대해 수행되는 행동을, 가져가기, 놓기 또는 이동을 포함하는 부류로 분류하도록 훈련된다. 하나 이상의 실시예에서, 시스템은, 사람이 물품의 모션과 연관되어 있음을 순응하거나 거부하는 입력을 수락하도록 구성된 인증(verification) 시스템을 포함한다. 하나 이상의 실시예에서, 시스템은, 사람이 물품의 모션과 연관되어 있음을 순응하거나 또는 거부하는 입력을 수신하도록 그리고 입력에 기초하여 신경망을 업데이트하도록 구성된 기계 학습 시스템을 포함한다. 본 발명의 실시예는 신경망을 또는 보다 일반적으로는 임의의 유형의 일반 함수 근사기를 활용할 수 있다. 이전-이후(before-after) 이미지 쌍 또는 이전-도중-이후(before-during-after) 이미지 쌍의 입력을 출력 행동에 맵핑하는 기능이 정의되면, 신경망은, 종래의 컨볼루션 신경망뿐만 아니라 더 간단한 히스토그램 또는 피처 기반 분류기들처럼, 임의의 이러한 함수 맵으로 훈련될 수 있다. 본 발명의 실시예는 또한, 전형적으로 데이터(입력)의 라벨(출력)을 정확하게 예측하기 위해 네트워크의 가중치 및/또는 구조를 수정하는 최적화기에 대한 라벨링된 데이터의 공급을 수반하는 신경망의 훈련을 가능하게 한다. 본 발명의 실시예는, 제공되는 쇼핑 카트에 대한 고객의 수락 또는 정정으로부터 이러한 데이터를 수집하도록 구성될 수 있다. 대안적으로 또는 조합하여, 시스템의 실시예는 또한, 종래의 상점으로부터 인간 계산원 정정을 수집할 수 있다. 사용자가 쇼핑 카트를 수락하거나 정정한 후, 실측(ground truth) 라벨링된 데이터 지점이 생성될 수 있으며, 그 지점은 훈련 세트에 부가되어 향후 개선에 사용될 수 있다.
[0019] 하나 이상의 실시예에서, 프로세서는 추가로, 시간 시퀀스의 이미지 제1 서브세트를 분석함으로써 사람의 하나 이상의 구별되는 특징을 식별하도록 구성되고 구별되는 특징을 사용하여 시간 시퀀스 이미지의 제2 서브 세트에서 사람을 인식한다. 하나 이상의 실시예에서, 프로세서는 사람의 아이덴티티(identity)를 결정하지 않고 제2 서브 세트에서 사람을 인식한다. 하나 이상의 실시예에서, 시간 시퀀스의 이미지의 제2 서브 세트는 사람의 이미지 및 두 번째 사람의 이미지를 포함한다. 하나 이상의 실시예에서, 하나 이상의 구별되는 특징은 사람의 하나 이상의 신체 부분의 형상 또는 크기, 사람이 착용한 하나 이상의 의류 물품의 형상, 크기, 컬러 또는 질감, 및 사람의 보행 패턴 중 하나 이상을 포함한다.
[0020] 시스템의 하나 이상의 실시예에서, 프로세서는 추가로, 상점 내의 카메라들의 각각의 카메라에 대한 카메라 보정 데이터를 획득하도록 그리고 카메라 보정 데이터를 사용하여 카메라들의 각각의 카메라로부터 시간 시퀀스의 이미지를 분석하도록 구성된다. 하나 이상의 실시예에서, 프로세서는, 카메라들의 각각의 카메라로부터 보정 이미지를 획득하고 보정 이미지로부터 카메라 보정 데이터를 계산하도록 구성된다. 하나 이상의 실시예에서, 보정 이미지는 하나 이상의 동기화 이벤트의 캡처된 이미지를 포함하고, 카메라 보정 데이터는 카메라 간의 시간적 오프셋을 포함한다. 하나 이상의 실시예에서, 보정 이미지는 3D 모델에 대해 정의된 위치에서 상점 내에 배치된 하나 이상의 마커의 캡처된 이미지를 포함하고, 카메라 보정 데이터는 3D 모델에 대한 카메라의 포지션 및 배향을 포함한다. 하나 이상의 실시예에서, 보정 이미지는 상점 내에 위치된 하나 이상의 컬러 보정 타겟의 캡처된 이미지를 포함하고, 카메라 보정 데이터는 카메라들의 각각의 카메라와 표준 컬러 공간 간의 컬러 매핑 데이터를 포함한다. 하나 이상의 실시예에서, 카메라 보정 프로세서는 추가로, 상점에서 조명(lighting) 조건이 변할될 때, 컬러 매핑 데이터를 재계산하도록 구성된다. 예를 들어, 하나 이상의 실시예에서, 상이한 카메라 보정 데이터는, 이를테면 황혼이나 새벽 컬러 변화 기간에서 발생하는, 전체 이미지 또는 한 구역에서의 현재 광 레벨, 광 컬러(색조, 채도 또는 휘도), 하루중 시간 또는 연중 하루에 기반하여 시스템에 의해 활용될 수 있다. 예를 들어, 주어진 카메라 또는 카메라들 또는 카메라 또는 카메라들로부터의 이미지의 일부에 대해, 상이한 카메라 보정 데이터를 활용함으로써, 물품 및 그의 조작에 대한 보다 정확한 결정이 달성될 수 있다.
[0021] 하나 이상의 실시예에서, 시스템의 임의의 프로세서, 이를테면 카메라 배치 최적화 프로세서는, 상점의 3D 모델을 획득하도록 그리고 상점 내 권장되는 카메라 수 및 상점 내 카메라들의 각각의 카메라의 권장되는 위치 및 배향을 계산하도록 구성된다. 하나 이상의 실시예에서, 프로세서는 상점 내 권장되는 카메라 수 및 상점 내 카메라들의 각각의 카메라의 권장되는 위치 및 배향을 계산한다. 구체적으로, 프로세서는 상점 내 한 세트의 잠재적인 카메라 위치 및 배향을 획득하고, 물품 저장 구역에서 한 세트의 물품 위치를 획득하고, 제안된 카메라 수와 제안된 세트의 카메라 위치 및 배향을 반복적으로 업데이트하여, 세트의 물품 위치들 중 각각의 물품 위치가 최소 수의 카메라들 중 적어도 2개에 표시되도록, 최소 수의 카메라들 및 최소 수의 카메라들의 각각의 카메라에 대한 위치 및 배향을 획득한다.
[0022] 하나 이상의 실시예에서, 시스템은 카메라를 포함하고, 카메라는 프로세서와 커플링된다. 다른 실시예에서, 시스템은 본원에서 설명되는 임의의 서브컴포넌트를 포함한다.
[0023] 하나 이상의 실시예에서, 프로세서는 추가로, 사람이 물품에 대해 지불하지 않고 상점을 떠나는 도둑질을 검출하도록 구성된다. 구체적으로, (예를 들어, 쇼핑 카트 목록에 있는) 사람이 소유하고 있는 물품의 목록은 통상적 금전 등록기 화면에서 사람 계산원에 의해 디스플레이되거나 다른식으로 관찰될 수 있다. 사람 계산원은 이 정보를 활용하여 쇼핑객이 어떤 것도 가져가지 않았는지 또는 상점에서 가져간 모든 물품에 대해 지불하고 있는지/보여주고 있는지 확인할 수 있다. 예를 들어, 고객이 상점에서 2개의 물품을 가져간 경우, 고객은 상점에서의 2개의 물품에 대해 지불해야 한다. 따라서, 본 발명의 실시예는, 예를 들어, 2개의 물품을 가져갔지만, 등록기에 도달할 때 하나만 보여주고 하나에 대해서만 지불하는 고객 검출을 가능하게 한다.
[0024] 하나 이상의 실시예에, 컴퓨터는 추가로, 사람이 물품을 보고 있음을 검출하도록 구성된다.
[0025] 하나 이상의 실시예에서, 시스템에 의해 활용되는 랜드마크는 사람의 눈 또는 사람의 머리에 있는 다른 랜드마크를 포함하며, 컴퓨터는 추가로, 사람의 눈 또는 다른 랜드마크의 위치에 기반하여 사람의 시야를 계산하도록 그리고 물품이 시야 내에 있을 때 사람이 물품을 보고 있음을 검출하도록 구성된다.
[0026] 시스템의 하나 이상의 실시예는, 한 장소 및 시간에서 획득된 승인을 다른 장소 또는 다른 시간으로 연장할 수 있다. 승인은 승인 지점으로부터 승인이 사용되는 제2 지점까지 사람을 추적함으로써 연장될 수 있다. 승인은, 보안된 환경에 진입하고 이 보안된 환경 내에서 물품을 구매하는 데 사용될 수 있다.
[0027] 승인을 연장하기 위해, 시스템의 프로세서는, 구역에 있는 사람을 추적하기 위해 구역에 또는 구역 주위에 설치된 카메라로부터의 이미지를 분석할 수 있다. 추적은 또한, 예를 들어, 카메라의 위치 및 배향을 설명할 수 있는, 구역의 3D 모델을 사용할 수 있다. 프로세서는 카메라 이미지로부터 구역에 있는 사람의 궤적을 계산할 수 있다. 궤적의 추적 및 계산은 위에서 설명된 또는 아래에서 상세히 설명되는 방법들 중 임의의 방법을 사용할 수 있다.
[0028] 사람은, 신용 카드와 같은 크리덴셜을 카드 판독기와 같은 크리덴셜 수신기에, 제1 위치에서 그리고 제1 시간에 제시한 다음, 승인을 수신할 수 있고; 승인은 또한 프로세서에 의해 수신될 수도 있다. 그런 다음, 사람은 제2 시간에 제2 위치로 이동할 수 있다. 이 제2 위치에서, 보안된 환경으로의 입구가 위치될 수 있으며, 입구는 자물쇠와 같은 제어가능한 장벽에 의해 보안될 수 있다. 프로세서는, 크리덴셜이 제시되었던 또는 승인이 수신되었던 시간과, 크리덴셜 수신기가 위치된 제1 위치에 그 사람이 있었던 시간을 관련시킴으로써, 그 사람과 승인을 연관시킬 수 있다. 그런 다음, 프로세서는, 사람이 보안된 환경의 입구에 있을 때 제어가능한 장벽에 진입 허용 커맨드(allow entry command)를 전송함으로써, 그 사람이 보안된 환경에 입장하도록 허용할 수 있다.
[0029] 승인을 획득하기 위해 사람이 제시한 크리덴셜에는, 예를 들어, 제한 없이, 신용 카드, 직불 카드, 은행 카드, RFID 태그, 모바일 결제 디바이스, 모바일 월렛 디바이스, 신분증, 모바일 폰, 스마트 폰, 스마트 시계, 스마트 안경 또는 고글, 전자 열쇠(key fob), 운전 면허증, 여권, 패스워드, PIN, 코드, 전화 번호 또는 생체 인식 식별자중 하나 이상을 포함할 수 있다.
[0030] 하나 이상의 실시예에서, 보안된 환경은 건물의 전부 또는 일부일 수 있고, 제어가능한 장벽은 건물 또는 건물의 일부에 대한 문을 포함할 수 있다. 하나 이상의 실시예에서, 보안된 환경은, 하나 이상의 물품을 포함하는 케이스(이를테면, 판매용 제품이 있는 디스플레이 케이스)일 수 있고, 제어가능한 장벽은 케이스의 문을 포함할 수 있다.
[0031] 하나 이상의 실시예에서, 구역은 주유소일 수 있고, 크리덴셜 수신기는 주유기에 있는 또는 주유기 근처의 요금지불 메커니즘일 수 있다. 보안된 환경은, 예를 들어, 주유소에 있는 편의점, 또는 하나 이상의 물품을 포함하는, 주유소에 있는 케이스(이를테면, 예를 들어, 자동 판매기)일 수 있다. 사람은 예를 들어, 주유기에서 비용을 지불하고, 가스를 펌핑하기 위한 그리고 편의점이나 제품 케이스에 입장해 다른 제품을 획득하기 위한 승인을 획득할 수 있다.
[0032] 하나 이상의 실시예에서, 크리덴셜은 크리덴셜을 가진 사람의 계정에 링크되는 지불의 형태이거나 이를 포함할 수 있으며, 시스템에 의해 수신되는 승인은 이 계정에 대한 사람의 구매를 청구하는 것에 대한 승인일 수 있다. 하나 이상의 실시예에서, 보안된 환경은, 사람이 하나 이상의 물품을 가져갈 때를 검출하는 센서를 포함할 수 있다. 센서로부터의 신호는 시스템의 프로세서에 의해 수신될 수 있으며, 그런 다음 프로세서는 그 사람의 계정에 가져간 물품 또는 물품들에 대해 지불을 청구할 수 있다. 하나 이상의 실시예에서, 사람은 그 사람이 보안된 환경에서 물품의 구매를 승인할지 여부를 나타내는 크리덴셜을 제시하는 위치에서 입력을 제공할 수 있다.
[0033] 하나 이상의 실시예에서, 사람의 추적은 또한, 보안된 환경에서의 카메라를 사용하여, 보안된 환경에서 발생할 수 있다. 자동화된 상점과 관련하여 위에서 설명된 바와 같이, 추적은 사람이 물품 저장 구역 근처에 있을 때를 결정할 수 있고, 물품 저장 구역의 2개 이상의 이미지의 분석은 물품이 이동되었음을 결정할 수 있다. 이러한 분석을 결합하는 것은, 시스템이 물품의 모션을 사람에게 결부시키는 것을 그리고 승인이 지불 계정에 링크된 경우, 물품을 사람의 계정으로 청구하게 허용한다. 다시, 자동화된 상점과 관련하여 설명되는 바와 같이, 사람이 물품 저장 구역에 있거나 그 근처에 있을 때를 추적하고 결정하는 것은, 사람 주위의 영향 볼륨의 3D 필드를 계산하는 것을 포함할 수 있고; 물품이 이동했거나 가져가진 때를 결정하는 것은, 물품 저장 구역의 2개 이상의 이미지(예를 들어, 이전 및 이후 이미지)를 입력하고 물품이 이동되는 확률을 출력하는 신경망을 사용할 수 있다.
[0034] 하나 이상의 실시예에서, 승인은 한 사람에서 다른 사람으로, 이를테면, 크리덴셜을 가진 사람과 동일한 차량에 있는 다른 사람으로 연장될 수 있다. 프로세서는 카메라 이미지를 분석하여, 한 사람이 승인을 위해 차량에서 내린 다음 크리덴셜을 제시했다는 것을 결정할 수 있다. 두 번째 사람이 동일한 차량에서 내리면, 그 두 번째 사람은 또한, 특정 행동들, 이를테면 보안된 구역에 입장하거나 또는 크리덴셜과 연관된 계정으로 요금이 청구될 물품을 가져가는 것을 수행하도록 승인될 수 있다. 두 번째 사람을 추적하고 그 사람이 가져가는 물품을 결정하는 것은, 위에서 설명된 바와 같이, 크리덴셜을 제시한 사람에 대해 수행될 수 있다.
[0035] 하나 이상의 실시예에서, 승인의 연장은, 크리덴셜을 제공하는 사람이 물품을 가져가 이 물품이 크리덴셜과 연관된 계정에 요금이 청구되게 할 수 있고; 물품은, 제어가능한 장벽이 있는 입구가 있는 보안된 환경에 있을 수도 또는 보안된 환경에 있지 않을 수도 있다. 사람의 추적은, 예를 들어, 위에서 설명된 바와 같이, 카메라를 사용하여 수행될 수 있다. 시스템은, 예를 들어, 위에서 설명된 바와 같이, 카메라 이미지를 분석함으로써 사람이 어떤 물품 또는 물품들을 가져갔는지 결정할 수 있다. 시스템과 연관된 프로세서는 또한, 카메라 이미지를 분석하여 사람이 언제 물품을 가져갔고 그런 다음 구역을 떠나기 전에 물품을 내려 놓았는지를 결정할 수 있고; 이 경우, 프로세서는 사람이 구역을 떠날 때 물품에 대한 요금이 사람에게 청구되지 않아야 한다고 결정할 수 있다.
[0036] 본 발명의 하나 이상의 실시예는 상점에서 사람의 위치를 찾기 위해(locate) 카메라 이미지를 분석하고, 그런 다음 그 사람 주위의 영향력 볼륨의 필드를 계산할 수 있다. 이 영향 볼륨의 필드는 단순하거나 상세할 수 있다. 이는, 사람의 위치에 대한 단일 지점 추정 주위의, 예를 들어, 원통과 같은 단순한 형상일 수 있다. 사람의 신체에 있는 랜드마크 또는 관절의 추적은 하나 이상의 실시예에서 필요하지 않을 수 있다. 상호작용 기간 동안 영향 볼륨의 필드가 물품 저장 구역과 교차하는 경우, 시스템은 이 기간의 시작 시에 또는 이전에 캡처된 이미지, 및 이 기간의 마지막에 또는 이후에 캡처된 이미지를 분석할 수 있다. 이 분석은 선반에 있는 물품이 이동했는지를 결정할 수 있으며, 이 경우, 이러한 이동은 영향 볼륨의 필드가 물품 저장 구역을 교차하는 사람에 결부될 수 있다. 예를 들어, 이전 및 이후 이미지의 분석은, 이러한 2개의 이미지를 입력으로서 취하는 신경망을 사용하여 수행될 수 있다. 신경망의 출력은, 각각의 물품이 이동된 확률, 및 (예를 들어, 물품 가져가기, 놓기 또는 이동과 같이) 사람이 취할 수 있는, 한 세트의 가능한 행동들의 각각의 행동과 연관된 확률을 포함할 수 있다. 가장 높은 확률을 갖는 행동 및 물품이 선택될 수 있으며, 이는 물품 저장 구역과 상호작용한 사람에 결부될 수 있다.
[0037] 하나 이상의 실시예에서, 상점의 카메라는 상점의 천장에 장착된 천장 카메라를 포함할 수 있다. 예를 들어, 이러한 천장 카메라는 어안 카메라(fisheye camera)일 수 있다. 상점 내 사람을 추적하는 것은 천장 카메라로부터의 이미지를 바닥과 평행한 평면 상에 투영하고 투영된 이미지를 분석하는 것을 포함할 수 있다.
[0038] 하나 이상의 실시예에서, 투영된 이미지는, 그 각각에서 상점 배경 이미지를 차감하고 그 차이를 결합하여 결합된 마스크를 형성함으로써, 분석될 수 있다. 사람 위치는 결합된 마스크에서 높은 세기 위치로서 식별될 수 있다.
[0039] 하나 이상의 실시예에서, 투영된 이미지는, 이 투영된 이미지가, 사람이 각각의 위치에 있을 가능성을 포함하는 세기 맵을 출력하는 기계 학습 시스템에 입력됨으로써, 분석될 수 있다. 기계 학습 시스템은 예를 들어, 컨볼루션 신경망일 수 있다. 하나 이상의 실시예에서 사용될 수 있는 예시적인 신경망 아키텍처는, 피처 추출 네트워크(feature extraction network)의 사본들, 각각의 투영된 이미지에 대한 하나의 사본, 피처 추출 네트워크의 사본으로부터의 출력을 결합하는 피처 병합 계층으로 구성되는 전반 서브네트워크 및 결합된 피처를 세기 맵에 매핑하는 후반 서브네트워크이다.
[0040] 하나 이상의 실시예에서, 추가 포지션 맵 입력이 기계 학습 시스템에 제공될 수 있다. 각각의 포지션 맵은 천장 카메라에 대응할 수 있다. 각각의 위치에서 포지션 맵의 값은 위치와 천장 카메라 사이의 거리의 함수일 수 있다. 포지션 맵은, 예를 들어, 각각의 투영된 이미지와 연관된 추가 채널로서, 컨볼루션 신경망에 입력될 수 있다.
[0041] 하나 이상의 실시예에서, 사람의 추적된 위치는 단일 지점일 수 있다. 이는, 천장 카메라 이미지가 투영되는 바닥과 평행한 평면과 같은 평면 상의 한 지점일 수 있다. 하나 이상의 실시예에서, 사람 주위의 영향 볼륨의 필드는 예를 들어, 원통과 같은 표준화된 형상의 변환된 사본(translated copy)일 수 있다.
[0042] 하나 이상의 실시예는 하나 이상의 모듈식 선반을 포함할 수 있다. 각각의 모듈식 선반은 선반의 바닥에 있는 적어도 하나의 카메라 모듈, 선반의 바닥에 있는 적어도 하나의 조명(lighting) 모듈, 선반의 왼쪽 가장자리에 또는 그 부근에 있는 우향(right-facing) 카메라, 선반의 오른쪽 가장자리에 또는 그 부근에 있는 좌향(left-facing) 카메라, 프로세서 및 네트워크 스위치를 포함할 수 있다. 카메라 모듈은 2개 이상의 하향(downward-facing) 카메라를 포함할 수 있다.
[0043] 모듈식 선반은 물품 저장 구역으로서 기능할 수 있다. 선반에 있는 하향 카메라는 선반에 아래에 있는 물품을 볼 수 있다.
[0044] 모듈식 선반에서 카메라 모듈과 조명 모듈의 포지션은 조정 가능할 수 있다. 모듈식 선반은 전면 레일 및 후면 레일을 가질 수 있는데, 이 레일들 상에서, 카메라 및 조명 모듈이 장착되고 조정될 수 있다. 카메라 모듈은 하나 이상의 슬롯들을 가질 수 있는데, 이 슬롯들 내에는 하향 카메라가 부착된다. 슬롯에서 하향 카메라의 포지션은 조정 가능할 수 있다.
[0045] 하나 이상의 실시예는 모듈식 천장을 포함할 수 있다. 모듈식 천장은 상점의 천장에 장착된 세로 레일(longitudinal rail)과, 세로 레일에 장착된 하나 이상의 가로 레일(transverse rail)을 가질 수 있다. 세로 레일을 따른 각각의 가로 레일의 포지션은 조정 가능할 수 있다. 하나 이상의 통합형 조명-카메라 모듈이 각각의 가로 레일에 장착될 수 있다. 각각의 통합형 조명-카메라 모듈의 포지션은 가로 레일을 따라 조정 가능할 수 있다. 통합형 조명-카메라 모듈은 중앙 구역을 둘러싼 조명 엘리먼트, 및 중앙 구역에 장착된 2개 이상의 천장 카메라를 포함할 수 있다. 천장 카메라는, 내부에 카메라가 장착되는 하나 이상의 슬롯과 함께 중앙 구역의 카메라 모듈에 장착될 수 있고; 슬롯에서 카메라의 포지션은 조정 가능할 수 있다.
[0046] 본 발명의 하나 이상의 실시예는 다수의 카메라로부터 투영된 이미지를 결합함으로써 물품 저장 구역에서 물품을 추적할 수 있다. 시스템은 쇼핑객이 물품 저장 구역에 도달하거나 물품 저장 구역에서 철수할 때를 검출하는 센서에 커플링된 프로세서를 포함할 수 있다. 센서는 쇼핑객이 물품 저장 구역 내에 도달했거나 물품 저장 구역을 향한다는 것을 검출하는 경우, 입장 신호(enter signal)를 생성할 수 있고, 그리고 센서는 쇼핑객이 물품 저장 구역에서 철수한 것을 검출하는 경우 퇴장 신호(exit signal)를 생성할 수 있다. 프로세서는 또한 물품 저장 구역을 보는 다수의 카메라에 커플링될 수 있다. 프로세서는 입장 신호 이전에 캡처된, 카메라 각각으로부터의 "이전(before)" 이미지를 획득하고, 그리고 퇴장 신호 이후에 캡처된, 카메라 각각으로부터의 "이후(after)" 이미지를 획득할 수 있다. 이는, 이러한 모든 이미지를 물품 저장 구역의 다수의 평면에 투영할 수 있다. 이는 투영된 이전 이미지 및 투영된 이후 이미지들을 분석하여, 입장 신호와 퇴장 신호 사이에서 물품 저장소에서 가져간 또는 물품 저장소에 놓은 물품을 식별하고, 그리고 이 물품을 물품 저장 구역과 상호작용한 쇼핑객과 연관시킬 수 있다.
[0047] 투영된 이전 이미지 및 투영된 이후 이미지를 분석하는 것은, 입장 신호 이전의 물품 저장 구역의 내용물(content), 퇴장 신호 이후의 물품 저장 구역의 내용물 간의 3D 볼륨 차이를 계산하는 것을 포함할 수 있다. 3D 볼륨 차이가, 내용물이 퇴장 신호 이후 더 작다는 것을 나타내는 경우, 시스템은, 투영된 이전 이미지들 중 하나의 이미지의 일부 또는 전부를 분류기에 입력할 수 있다. 3D 볼륨 차이가, 내용물이 퇴장 신호 이후에 더 크다는 것을 나타내는 경우, 시스템은, 투영된 이후 이미지들 중 하나의 이미지의 일부 또는 전부를 분류기에 입력할 수 있다. 분류기의 출력은 물품 저장 구역에서 가져가거나 물품 저장 구역에 놓은 물품(또는 물품들)의 아이덴티티로서 사용될 수 있다. 분류기는 예를 들어, 물품의 이미지를 인식하도록 훈련된 신경망일 수 있다.
[0048] 프로세서는 또한, 3D 볼륨 차이로부터, 물품 저장 구역에서 가져간 또는 물품 저장 구역에 놓은 물품의 수량을 계산하고, 이 수량을 쇼핑객과 연관시킬 수 있다. 예를 들어, 시스템은 분류기에 의해 식별된 물품(또는 물품들)의 크기를 획득하고 이 크기를 3D 볼륨 차이와 비교하여 수량을 계산할 수 있다.
[0049] 프로세서는 또한, 3D 볼륨 차이가, 물품 저장 구역의 내용물이 상호작용 이후 더 작다는 것을 나타내는지 또는 더 크다는 것을 나타내는지 여부를 기반으로, 물품 및 쇼핑객과 행동을 연관시킬 수 있다. 내용물이 더 크면, 프로세서는 쇼핑객과 놓기 행동을 연관시킬 수 있고, 내용물이 더 작으면, 프로세서는 쇼핑객과 가져가기 행동을 연관시킬 수 있다.
[0050] 하나 이상의 실시예는 투영된 이전 이미지로부터 물품 저장 구역 콘텐츠의 "이전" 3D 표면을 생성하고, 투영된 이후 이미지로부터의 콘텐츠의 "이후" 3D 표면을 생성할 수 있다. 예를 들어, 평면-스위프 스테레오(plane-sweep stereo)와 같은 알고리즘이 이러한 표면을 생성하는 데 사용될 수 있다. 3D 볼륨 차이는 이러한 표면들 사이의 볼륨으로서 계산될 수 있다. 이전 이미지와 이후 이미지가 투영되는 평면은, 물품 저장 구역(예를 들어, 선반)의 표면과 평행할 수 있거나, 또는 이러한 평면들 중 하나 이상이 이러한 표면과 평행하지 않을 수 있다.
[0051] 하나 이상의 실시예는 각각의 투영된 평면에서 변화 영역을 계산할 수 있고, 이러한 변화 영역을 변화 볼륨으로 결합할 수 있다. 이전 3D 표면과 이후 3D 표면은 변경 볼륨에서만 계산될 수 있다. 투영된 평면의 변화 구역은, 각각의 카메라에 대해, 해당 평면에서 각각의 이전 투영된 이미지와 그 평면에서 각각의 이후 투영된 이미지 간의 이미지 차이를 형성한 다음, 이러한 차이를 카메라에 걸쳐 결합함으로써, 계산될 수 있다. 카메라에 걸친 이미지 차이를 결합하는 것은, 해당 이미지 차이의 평면에서의 지점과 연관된 카메라 사이의 거리를 기반으로 각각의 차이의 픽셀에 가중치를 부여할 수 있으며, 결합된 변경 구역을 카메라에 걸친 가중된 평균으로서 형성할 수 있다. 이미지 차이는 예를 들어, 이전 및 이후 투영된 이미지들 간의 절대적인 픽셀 차이일 수 있다. 하나 이상의 실시예는 대신, 이미지 차이를 생성하기 위해 신경망에 이전 이미지 및 이후 이미지를 입력할 수 있다.
[0052] 하나 이상의 실시예는 물품 저장 구역(예를 들어, 선반 아래)을 관찰하는 다수의 카메라, 가장자리에 있는 좌향 및 및 우향 카메라, 선반 프로세서 및 네트워크 스위치를 갖는 모듈식 선반을 포함할 수 있다. 이미지를 분석하는 프로세서는, 상점 프로세서와 선반 프로세서를 포함하는 프로세서 네트워크일 수 있다. 좌향 및 우향 카메라 및 프로세서는, 쇼핑객이 물품 저장 구역에 도달할 때 또는 물품 저장 구역에서 철수할 때를 검출하고 연관된 입장 신호 및 퇴장 신호를 생성하는 센서를 제공할 수 있다. 선반 프로세서는 카메라 이미지를 저장하는 메모리에 커플링될 수 있고; 입장 신호가 수신되면, 선반 프로세서는 이 메모리에서 이전 이미지를 검색할 수 있다. 선반 프로세서는 분석을 위해 이전 이미지를 상점 프로세서에 전송할 수 있다. 이는, 카메라로부터 또는 메모리로부터 이후 이미지를 획득하고 분석을 위해 이를 상점 컴퓨터로 보낼 수 있다.
[0053] 하나 이상의 실시예는, 투영된 이전 이미지 또는 투영된 이후 이미지 또는 이의 일부를 신경망에 입력함으로써, 이들을 분석할 수 있다. 신경망은 입장 신호와 퇴장 신호 사이에서 물품 저장 구역에서 가져가 또는 물품 저장 구역에 놓은 물품의 아이덴티티를 출력하도록 훈련될 수 있다. 이는 또한, 물품을 저장 구역에서 가져갔는지 또는 물품을 보관 영역에 놓았는지 여부를 나타내는 행동을 출력하도록 훈련될 수 있다. 하나 이상의 실시예는, 각각의 입력 이미지에 적용되는 피처 추출 계층, 그 다음 각각의 이전 이미지와 각각의 대응하는 이후 이미지 간의 피처 차이를 계산하는 차이 계층, 그 다음 하나 이상의 컨볼루션 계층, 그 다음 물품 분류기 계층 및 동작 분류기 계층을 포함하는 신경망을 사용할 수 있다.
[0054] 하나 이상의 실시예는 수량 센서와 카메라 이미지를 결합하여, 쇼핑객에 의해 추가되거나 제거된 물품을 검출하고 식별할 수 있다. 선반과 같은 저장 구역은, 하나 이상의 저장 존으로 분할될 수 있으며, 수량 센서는 각각의 존과 연관될 수 있다. 수량 센서에 의해 생성된 수량 신호는 존에 있는 물품 수와 상관될 수 있다. 프로세서 또는 프로세서들은 수량 신호를 분석하여, 쇼핑객이 물품을 추가하거나 또는 제거하는 때 및 장소를 결정하고 얼마나 많은 물품이 영향을 받는지를 결정할 수 있다. 이는, 그런 다음, 쇼핑객 행동 이전 또는 이후로부터, 영향받는 저장 구역의 카메라 이미지를 획득할 수 있다. 이미지가 물품 저장 구역의 평면 상에 투영되고 분석되어, 추가되거나 제거된 물품 또는 물품들이 식별될 수 있다. 그런 다음, 물품 또는 물품들 및 수량 변경이 동작을 수행한 쇼핑객과 연관될 수 있다.
[0055] 카메라 이미지가 투영되는 평면은 물품 저장 구역의 전면을 따른 또는 그 부근의 수직 평면일 수 있다. 영향받는 저장 존에 대응하는 투영된 이미지의 구역들이 분석되어 추가된 또는 제거된 물품이 식별될 수 있다. 수량 신호가 수량 증가를 나타내면, 투영된 이후 이미지가 분석될 수 있고; 수량 신호가 수량 감소를 나타내면, 투영된 이전 이미지가 분석될 수 있다. 영향받는 저장 존에 대응하는 이전 및 이후 이미지의 구역은 그 이미지를 기반으로 물품을 식별하도록 훈련된 신경망과 같은 분류기에 입력될 수 있다.
[0056] 예시적인 저장 존은, 쇼핑객이 물품을 제거할 때 저장 존의 전면을 향해 이동하고 쇼핑객이 물품을 추가할 때 전면에서 멀어지는, 이동식 백(moveable back)을 가질 수 있다. 이러한 유형의 저장 존에서 수량을 측정하는 수량 신호는 예를 들어, 이동식 백의 포지션과 상관될 수 있다. 예를 들어, LIDAR 또는 초음파 거리계와 같은 거리 센서는 이동식 백까지의 거리를 측정할 수 있다. 단일-픽셀 LIDAR는 존에 있는 물품의 수량을 추적하는 데 충분할 수 있다.
[0057] 또 다른 예시적인 저장 존은 물품이 현수되는 행잉 마운트(hanging mount)를 가질 수 있다. 이 존과 연관된 수량 신호는 물품의 무게일 수 있다. 이 무게는 예를 들어, 2개 이상의 스트레인 게이지로 측정될 수 있다.
[0058] 제 3의 예시적인 저장 존은 물품을 포함하는 저장통(bin)일 수 있고, 이 저장통에 대한 수량 센서는 저장통에 있는 물품의 무게를 측정하는 저울(weight scale)일 수 있다.
[0059] 상점 두루 쇼핑객을 추적함으로써 결정되는, 쇼핑객의 영향 볼륨의 3D 필드의 위치는, 각각의 카메라가, 물품이 추가되거나 제거되는 저장 존의 뷰를 방해받지 않는 때를 결정하는 데 사용될 수 있다. 방해받지 않는 카메라 이미지는 영향받는 물품의 아이덴티티를 결정하는 데 사용될 수 있다.
[0060] 특허 또는 출원 파일에는 컬러로 실행된 도면이 적어도 하나 포함되어 있다. 컬러 도면(들)을 갖는 이 특허 또는 특허 출원 공보의 사본은 요청 및 필요한 비용 지불시 사무국에 의해 제공될 것이다.
[0061] 본 발명의 상기 및 다른 양상, 특징 및 장점은 다음의 도면과 함께 제시되는 다음의 보다 구체적인 설명으로부터 더욱 명백해질 것이다.
[0062] 도 1은, 사람이 선반에서 제품을 제거했음을 검출하기 위해, 상점에 있는 카메라로부터의 이미지를 분석하는 본 발명의 실시예의 동작을 예시한다.
[0063] 도 2는, 도 1에 도시된 예를 계속하여, 사람이 물품을 가지고 상점을 떠날 때의 자동 체크아웃을 도시한다.
[0064] 도 3은, 어떤 물품이 가져가졌는지, 이동되었는지 또는 다시 내려놔졌는지를 검출하기 위해 선반의 이전 이미지 및 이후 이미지를 신경망에 공급함으로써 물품이 선반에서 제거되었다는 것을 결정하는 예시적 방법을 도시하며, 여기서 신경망은, 예를 들어, 2개의 이미지 입력을 이용하는 샴 신경망(Siamese neural network)을 통해 본 발명의 하나 이상의 실시예에서 구현될 수 있다.
[0065] 도 4는 도 3에 도시된 신경망의 훈련을 예시한다.
[0066] 도 4a는, 쇼핑객이 가져간 물품의 검출의 수동 검토 및 정정을 허용하고 수정된 예를 사용하여 신경망의 재훈련을 허용하는 실시예를 예시한다.
[0067] 도 5는 신체 측정 및 의류 컬러와 같은 구별되는 특징들에 기반하여 상점에서 사람을 식별하는 예시적인 실시예를 도시한다.
[0068] 도 6a 내지 6e는, 본 발명의 하나 이상의 실시예가 사람의 신체 상의 랜드마크를 찾고 이러한 랜드마크로부터 오프셋 거리를 계산함으로써 사람 주위의 영향 볼륨의 필드를 결정할 수 있는 방법을 예시한다.
[0069] 도 7a 및 7b는, 사람의 신체 상의 랜드마크의 위치에 대한 확률 분포를 계산하고 지정된 양의 확률 분포를 포함하도록 볼륨을 설정함으로써 사람 주위의 영향 볼륨의 필드를 결정하는 다른 방법을 예시한다.
[0070] 도 8은, 상점 두루 사람의 이동을 추적하기 위한 예시적인 방법을 도시하며, 이 방법은, 카메라 이미지 투영 관찰들에 기반하는 측정 모델 및 모션 예측을 위한 물리 모델과 함께, 사람의 상태에 대한 확률 분포를 위해 파티클 필터를 사용한다.
[0071] 도 9는, 하나 이상의 실시예가 사람에 모션을 결부시키기 위해 물품 모션의 검출과 사람의 영향 필드의 추적을 결합할 수 있는 방법에 대한 개념적 모델을 도시한다.
[0072] 도 10은, 선반과 같은 물품 저장 구역과 사람의 영향 볼륨의 필드를 교차시키고 물품 검출을 위해 교차된 영역의 이미지를 신경망에 공급함으로써, 물품 이동을 사람에 결부시키는 실시예를 예시한다.
[0073] 도 11은, 상점에 있는 두 사람을 추적하고 추적된 사람 중 한 명이 물품을 집어들 때를 검출하는 시스템의 실시예의 스크린샷을 도시한다.
[0074] 도 12는 도 11의 물품 저장 구역의 스크린샷을 도시하며, 물품 저장 구역의 2개의 상이한 이미지가 상점에서 사람에 의해 이동된 물품의 검출을 위해 신경망에 입력되는 방법을 예시한다.
[0075] 도 13은 도 12에서의 신경망 분류 결과를 도시하며, 이는 상점에 있는 사람들이 이동하거나 만지는 물품으로 태깅된다.
[0076] 도 14는, 상점에 있는 사람을 식별하고 그 사람 상의 식별된 랜드마크 주위에 영향 볼륨의 3D 필드를 구축하는 실시예의 스크린샷을 도시한다.
[0077] 도 15는, 도 14의 사람이 상점을 두루 이동할 때 그 사람을 추적하는 것을 도시한다.
[0078] 도 16은 여러 유형의 카메라 보정 정정을 이미지에 적용하는 실시예를 예시한다.
[0079] 도 17은, 상점 전체에 걸쳐 배치된 마커의 이미지를 캡처하여 카메라 보정 데이터를 생성하고 또한 상점에 걸친 그리고 시간에 걸친 색조, 채도 또는 휘도 변화로 인한 컬러 변화를 정정하는 실시예를 예시한다.
[0080] 도 18은, 카메라 시야에 의해 카메라의 수와 물품의 커버리지를 측정하는 비용 함수를 반복적으로 최적화함으로써 상점에 대한 최적의 카메라 구성을 계산하는 실시예를 예시한다.
[0081] 도 19는, 사람이 제품을 가져가서 물품이 카드 계정에 자동으로 요금이 청구되게 할 수 있는, 상점에 대한 자동화된 액세스를 제공하기 위해 주유기에 있는 카드 판독기로부터의 승인을 연장시키는, 주유소에 설치된 실시예를 예시한다.
[0082] 도 20은 도 19의 실시예의 변형을 도시하며, 여기서 주유기에서 지불을 한 사람이 케이스에 있을 때 제품을 포함하는 잠긴 케이스가 자동으로 잠금해제된다.
[0083] 도 21은 도 20의 예를 계속하며, 케이스로부터 사람이 가져간 제품이 카메라 또는 다른 센서를 사용하여 추적될 수 있으며 주유기에서 사용되는 카드 계정으로 요금이 청구될 수 있다는 것을 도시한다.
[0084] 도 22는 도 19의 예를 계속하며, 일단 사람이 상점에 입장하면 사람을 추적하고, 이미지를 분석하여 그 사람이 어떤 제품을 가져갔는지 결정하고, 주유기에 입력된 카드와 연관된 계정에 요금이 청구되는 것을 예시한다.
[0085] 도 23은 도 22의 예의 변형을 도시하며, 사람이 물건을 집어 든 다음 나중에 물품을 내려 놓아서 물품이 사람에게 요금이 청구되지 않도록 추적하는 것을 예시한다.
[0086] 도 24는 도 19의 예의 또 다른 변형을 도시하며, 여기서 주유기에서 획득된 승인은 자동차에 있는 한 그룹의 사람에게 적용할 수 있다.
[0087] 도 25a, 도 25b 및 도 25c는 주유기로부터의 사용자 및 또한 자동차의 다른 탑승자를 위한 상점에서의 구매로 승인을 연장할지 여부에 대해 사용자에게 질의하는 실시예를 도시한다.
[0088] 도 26a 내지 도 26f는 상점을 지나는 사람을 추적하는 데 사용될 수 있는 6개의 천장-장착 어안 카메라로부터의 예시적인 카메라 이미지를 도시한다.
[0089] 도 27a, 도 27b 및 도 27c는 도 26a 내지 도 26f로부터의 3개의 어안 카메라 이미지의 바닥 1 미터 위 수평 평면 상의 투영을 도시한다.
[0090] 도 28a, 도 28b 및 도 28c는, 예를 들어, 배경 차감 또는 모션 필터링에 의해 결정된 바와 같이, 각각, 도 27a, 도 27b 및 도 27c의 전경 물체의 이진(binary) 마스크를 도시한다. 도 28d는, 상점에서 사람의 포지션을 결정하기 위해 모든 카메라 이미지 투영을 결합하는 합성 전경 마스크를 도시한다.
[0091] 도 29a 내지 도 29f는, 6개의 어안 카메라 각각에서 바라본 바와 같은, 상점에 있는 사람들 중 한 명 주위에 생성된 원통을 도시한다.
[0092] 도 30a 내지 도 30f는, 각각, 도 29a 내지 도 29f에 도시된 원통 상에 6개의 어안 카메라 뷰의 투영을 도시한다. 도 30g는 도 30a 내지 도 30f의 6개의 투영의 합성을 도시한다.
[0093] 도 31a 및 도 31b는, 위에서 설명된 어안 카메라를 사용하는 사람 추적 시스템의 실시예의 시간 상 2개의 상이한 지점에서의 스크린샷을 도시한다.
[0094] 도 32는, 기계 학습 시스템을 사용하여 카메라 이미지로부터 사람 위치를 검출하는 예시적인 실시예를 도시한다.
[0095] 도 32a는, 기계 학습 시스템에 의해 생성된 사람 위치 주위의 3D 또는 2D 영향 필드의 생성을 도시한다.
[0096] 도 33은 천장 카메라 이미지의 바닥과 평행한 평면 상의 투영을 예시하며, 이에 따라 이 평면 상의 동일한 사람 위치에 대응하는 픽셀은 투영된 이미지에 정렬된다.
[0097] 도 34a 및 도 34b는, 사람 검출을 위해 투영된 이미지 및 기계 학습을 사용하는 본 발명의 실시예를 예시하기 위해 도 35 내지 도 41에서 사용되는 인공 3D 장면을 도시한다.
[0098] 도 35는 장면에 천장 카메라로 캡처한 어안 카메라 이미지를 도시한다.
[0099] 도 36은 공통 평면 상에 투영된 도 35의 어안 카메라 이미지를 도시한다.
[00100] 도 37은, 투영된 평면의 교차점에 있는 사람에 대한 픽셀의 일치를 예시하는, 도 36의 투영된 이미지의 중첩을 도시한다.
[00101] 도 38은, 각각의 이미지를 캡처하는 카메라로부터의 각각의 지점의 거리를 반영하는 포지션 가중치 맵을 이용하여, 투영된 이미지를 확대하는 예시적인 실시예를 도시한다.
[00102] 도 39는, 상점 내 각각의 카메라로터의 입력들을 이용하는 예시적인 기계 학습 시스템을 도시하며, 여기서 각각의 입력은 포지션 가중치 채널을 이용하여 증강된 3개의 컬러 채널을 표현하는 4개의 채널을 갖는다.
[00103] 도 40은, 카메라 이미지로부터 사람을 검출하기 위해 하나 이상의 실시예에서 사용될 수 있는 예시적인 신경망 아키텍처를 도시한다.
[00104] 도 41은 기계 학습 사람 검출 시스템에 대한 훈련 데이터를 생성하는 예시적인 프로세스를 도시한다.
[00105] 도 42는, 선반에 있는 물품의 이동을 검출하기 위해 카메라, 조명, 프로세싱 및 통신을 통합하는 모듈식 "스마트(smart)" 선반을 갖춘 예시적인 상점을 도시한다.
[00106] 도 43은 스마트 선반의 예시적인 실시예의 전면도를 도시한다.
[00107] 도 44a, 도 44b 및 도 44c는 도 43의 스마트 선반의 평면도, 측면도 및 저면도를 도시한다.
[00108] 도 45는, 컴포넌트를 도시하기 위해 전자장치 커버를 제거한, 도 44c의 스마트 선반의 저면도를 도시한다.
[00109] 도 46a 및 도 46b는, 각각, 도 45의 스마트 선반에 설치될 수 있는 카메라 모듈의 저면도 및 측면도를 도시한다.
[00110] 도 47은 도 45의 스마트 선반에서 사용될 수 있는 레일 장착 시스템을 도시하며, 이는 선반을 따라 임의의 원하는 포지션에 조명 모듈 및 카메라 모듈이 설치되게 허용한다.
[00111] 도 48은, 카메라 모듈 및 조명 모듈이 임의의 원하는 포지션에 그리고 간격을 두고 설치될 수 있는 모듈식 "스마트"천장 시스템을 갖춘 예시적인 상점을 도시한다.
[00112] 도 49는 임의의 원하는 수평 포지션에 통합형 조명-카메라 모듈의 설치를 지원하는 예시적인 스마트 천장 시스템을 도시한다.
[00113] 도 50은 도 49의 스마트 천장 시스템의 일부의 클로즈업 뷰를 도시하며, 메인 세로 레일 및 통합형 조명-카메라 모듈이 장착되는 이동식 가로 레일을 도시한다.
[00114] 도 51은 도 50의 통합형 조명-카메라 모듈의 클로즈업 뷰를 도시한다.
[00115] 도 52는 3가지 기능을 수행하는 컴포넌트를 갖춘 무인 상점 시스템을 도시한다: (1) 상점 두루 쇼핑객 추적, (2) 선반에 있는 물품과 쇼핑객의 상호작용 추적, 및 (3) 선반에 있는 물품의 이동 추적.
[00116] 도 53a 및 도 53b는, 선반에서 물품을 제거하기 위해 쇼핑객과 상호작용하는 무인 상점의 예시적인 선반을 도시하며; 도 53b는 쇼핑객이 물품을 가져가기 위해 선반에 손을 뻗기(reach) 이전의 선반의 도면이고, 도 53a는 이 상호작용 이후 선반의 도면이다.
[00117] 도 54는 선반 또는 다른 저장 구역에 있는 물품의 제거, 추가 또는 이동을 결정하기 위해 하나 이상의 실시예에서 사용될 수 있는 프로세스에 대한 예시적인 흐름도를 도시하며; 이 프로세스는 다수의 카메라로부터의 투영된 이미지를 다수의 표면에 결합하여 변화를 결정한다.
[00118] 도 55는 사용자가 선반과 상호작용하기 이전 및 이후에 카메라 이미지를 획득하는 데 사용될 수 있는 컴포넌트를 도시한다.
[00119] 도 56a 및 도 56b는 물품 저장 구역에서의 예시적인 평면에 대한 카메라 이미지의 투영을 도시한다.
[00120] 도 57a는, 물품이 추가되거나 제거되었을 수 있는 구역을 결정하기 위해 "이전" 투영된 이미지 및 "이후" 투영된 이미지의 예시적인 비교를 도시한다.
[00121] 도 57b는, 샘플 선반으로부터의 실제 이미지에 적용되는, 도 57a의 비교 프로세스를 도시한다.
[00122] 도 58은, 각 카메라들로부터 각각의 투영된 픽셀의 거리를 기반으로, 각각의 이미지 차이에 가중치를 적용하여, 다수의 카메라로부터의 이미지 차이를 결합하는 예시적인 프로세스를 도시한다.
[00123] 도 59는, 물품이 이동될 수 있는 변경 볼륨을 결정하기 위해 다수의 투영된 평면에서의 이미지 차이를 결합하는 것을 예시한다.
[00124] 도 60은, 상호작용 이전 및 이후의 선반 콘텐츠들 간의 3D 볼륨 차이를 구성하기 위해, 쇼핑객 상호작용 이전 및 이후에 투영된 이미지 평면을 사용하는 변경 볼륨을 예시적인 스위핑을 예시한다.
[00125] 도 61은 2개의 카메라로부터 샘플 선반의 예시적인 평면 스위핑(plane sweeping)을 도시하며, 상이한 물체가 그 물체의 높이에 대응하는 서로 다른 평면에 포커싱되는 것을 도시한다.
[00126] 도 62는 이미지 분류기를 사용한 물품의 식별 및 선반에 추가된 또는 선반에서 제거된 물품의 수량의 계산을 예시한다.
[00127] 도 63은 쇼핑객에 의해 이동된 물품을 식별하기 위해 하나 이상의 실시예에서 사용될 수 있는 신경망, 및 쇼핑객이 선반에서 가져가거나 선반에 올려 놓는 것과 같이, 이러한 물품에 대해 취하는 동작을 도시한다.
[00128] 도 64는 천장 카메라를 통한 사람 추적, 선반에 커플링된 수량 센서를 통한 행동 검출, 상점 카메라를 통한 물품 식별을 결합한 본 발명의 실시예를 도시한다.
[00129] 도 65는 쇼핑객 이동과 쇼핑객 행동의 분석을 가능하게 하는 데 사용될 수 있는 예시적인 센서 유형에 대한 아키텍처를 도시한다.
[00130] 도 66a는 예시적 선반을 도시하며, 물품은, 물품이 제거될 때, 선반의 전면을 향해 물품을 누르는 이동식 백을 갖는 존에 배열된다. 각각의 존에는 이동식 백까지의 거리를 측정하는 센서가 연관되어 있다. 도 66b는 도 66a의 선반의 평면도를 도시한다.
[00131] 도 66c는, 물품 보관 존의 다양한 크기와 위치를 수용하기 위해 바를 따라 슬라이딩하는 센서 유닛을 갖는 예시적인 모듈식 센서 바를 도시한다.
[00132] 도 66d는 도 66c의 모듈식 센서 바의 이미지를 도시한다.
[00133] 도 67은 이동식 백까지의 거리를 입력 데이터로서 사용하여 저장 존에 있는 물품의 수량을 계산하기 위한 예시적인 방법을 도시한다.
[00134] 도 68은 도 66a에 도시된 실시예로부터의 데이터를 사용하는 동작 검출을 예시한다.
[00135] 도 69a는 수량 센서가 통합된 선반의 상이한 실시예를 도시하며; 이 실시예는 수량을 결정하기 위해 무게 센서가 있는 행잉 로드(hanging rod)를 사용한다. 도 69b는 도 69a의 실시예의 저장 존의 측면도를 도시하며, 행잉 로드에 커플링된 스트레인 게이지 센서(strain gauge sensor)를 사용한 물품 수량의 계산을 예시한다.
[00136] 도 70a는 수량 센서를 갖춘 선반의 다른 실시예를 도시하며; 이 실시예는 저장통을 사용하는 데, 저장통 밑에 무게 측정 센서가 있다. 도 70b는 도 70a로부터의 저장통의 측면도를 도시한다.
[00137] 도 71은 수량 센서가 통합된 실시예를 사용한 선반의 밀폐 포장(close packing)을 예시한다.
[00138] 도 72a는 쇼핑객이 도 71의 실시예의 선반에서 물품을 제거하는 경우 예시적인 데이터 흐름 및 프로세싱 단계를 도시한다.
[00139] 도 72b는, 제품이 서로 다른 투영된 카메라 이미지에서 동일한 포지션에 있도록, 선반 유닛의 전면에 투영되는, 상점으로부터의 예시적인 카메라 이미지를 도시한다.
[00140] 도 73은 도 72a의 예의 변형을 도시하며, 여기서 시스템은 사람 추적과 물품 추적을 결합하여 어떤 카메라 또는 카메라들이 물품이 제거된 저장 존의 폐색되지 않은 뷰를 갖는지를 결정한다.
[00141] 이제, 예를 들어, 쇼핑객과 물품을 추적하는 무인 상점 시스템에서 사용되는, 이미지와 수량 센서를 통합하는 스마트 선반 시스템이 설명될 것이다. 실시예는, 카메라 이미지를 분석함으로써 사람을 추적할 수 있고, 이에 따라, 시간 상 한 지점에서 이 사람에 의해 획득된 승인을 시간 또는 공간의 다른 지점으로 연장시킬 수 있다. 실시예는 또한, 카메라 이미지를 분석하여 사람을 그리고 물품과 사람의 상호작용을 추적하는 무인 상점 시스템을 가능하게 할 수 있으며, 또한 카메라 보정, 최적의 카메라 배치 및 판매 시점 시스템과 컴퓨터 상호작용을 가능하게 할 수 있다. 컴퓨터 상호작용은 예를 들어, 모바일 디바이스 및 판매 시점 시스템을 수반할 수 있다. 다음 예시적인 설명에서는, 본 발명의 실시예들의 보다 철저한 이해를 제공하기 위해, 많은 특정 세부사항들이 제시된다. 그러나, 본 발명이 본원에서 설명되는 특정 세부사항의 모든 양상을 통합하지 않고 실시될 수 있다는 것은 당업자에게 명백할 것이다. 다른 예시들에서, 당업자에게 잘 알려진 특정 특징, 양 또는 측정치는 본 발명을 모호하게 하지 않기 위해 상세히 설명되지 않는다. 독자는 본 발명의 예가 본원에서 설명되어 있지만, 청구항 및 임의의 등가물의 전체 범위가 본 발명의 경계와 한계를 정의한다는 점을 유의해야 한다.
[00142] 도 1은 자동화된 상점의 일 실시예를 도시한다. 상점은, 임의의 종류의 물품이 위치되거나, 저장되거나, 판매되거나 또는 디스플레이되는, 또는 사람들이 두루 이동하는 임의의 위치, 건물, 방, 구역, 영역 또는 부지일 수 있다. 예를 들어, 상점은, 제한 없이, 소매점, 창고, 박물관, 갤러리, 쇼핑몰, 전시실, 교육 시설, 공공 지역, 로비, 사무실, 집, 아파트, 기숙사, 병원 또는 기타 의료 시설일 수 있다. 상점에 위치된 물품은, 이로 제한 되는 것은 아니지만, 판매용 또는 임대용인 제품을 포함하는 임의의 유형일 수 있다.
[00143] 도 1에 도시된 예시적인 실시예에서, 상점(101)은, 이 예에서 선반인 물품 저장 구역(102)을 갖는다. 물품 저장 구역은 모든 유형, 크기, 형상 및 위치일 수 있다. 이는 고정된 치수이거나 또는 크기, 형상 또는 위치가 가변적일 수 있다. 물품 저장 구역은, 예를 들어, 제한 없이, 선반, 저장통, 바닥, 랙, 냉장고, 냉동고, 옷장, 행거, 카트, 컨테이너, 보드, 후크 또는 분배기를 포함할 수 있다. 도 1의 예에서, 물품(111, 112, 113 및 114)은 물품 저장 구역(102)에 위치된다. 카메라(121, 122)는 상점 내에 위치되며, 상점과 물품 저장 구역의 전체 또는 일부를 관찰하도록 위치결정된다. 카메라로부터의 이미지는 상점에 있는 사람(이를테면, 사람(103))의 행동 및 존재를 결정하기 위해 그리고 특히 이러한 사람과 상점에 있는 물품(111 내지 114)의 상호작용을 결정하기 위해 분석된다. 하나 이상의 실시예에서, 카메라 이미지는 사람 및 물품과 사람의 상호작용을 추적하는 데 요구되거나 사용되는 유일한 입력일 수 있다. 하나 이상의 실시예에서, 카메라 이미지 데이터는 사람 및 물품과 사람의 상호작용을 추적하기 위해 다른 정보로 증강될 수 있다. 시스템의 하나 이상의 실시예는, 예를 들어, RFID 태그 또는 각각의 물품과 연관된 임의의 다른 비-이미지 기반 식별자와 같은 임의의 식별 태그를 사용하지 않고, 사람 및 물품과 사람의 상호작용을 추적하기 위해 이미지를 활용할 수 있다.
[00144] 도 1은 2개의 카메라, 카메라(121) 및 카메라(122)를 도시한다. 하나 이상의 실시예에서, 사람 및 물품을 추적하기 위해 임의의 수의 카메라가 사용될 수 있다. 카메라는 임의의 유형일 수 있고; 예를 들어, 카메라는 2D, 3D 또는 4D일 수 있다. 3D 카메라는 스테레오 카메라일 수 있거나, 또는 깊이 정보를 획득하기 위한 거리계와 같은 다른 기술을 사용할 수 있다. 하나 이상의 실시예는 오직 2D 카메라만을 사용할 수 있으며, 예를 들어, 다수의 2D 카메라로부터 사람 및 물품의 뷰를 삼각측량함으로써 3D 위치를 결정할 수 있다. 4D 카메라는, 시간에 따라 또한 깊이를 수집하거나 계산할 수 있는 임의의 타입의 카메라, 예를 들어, 3D 비디오 카메라를 포함할 수 있다.
[00145] 카메라(121, 122)는 사람이 지나 이동할 수 있는 상점(101)의 구역 또는 구역들 및 물품 저장 구역(102)을 관찰한다. 상이한 카메라가 상점의 상이한 구역 또는 상이한 물품 저장 구역을 관찰할 수 있다. 카메라는 하나 이상의 실시예에서 중첩 뷰를 가질 수 있다. 일부 실시예에서는 단일 카메라가 전체 상점의 뷰를 가질 수 없기 때문에, 상점을 두루 이동하는 사람의 추적은 다수의 카메라를 수반할 수 있다.
[00146] 카메라 이미지는 프로세서(130)에 입력되며, 프로세서(130)는 이미지를 분석하여 상점에 있는 사람과 물품을 추적한다. 프로세서(130)는 임의의 유형 또는 유형들의 컴퓨터 또는 다른 디바이스일 수 있다. 하나 이상의 실시예에서, 프로세서(130)는 다수의 프로세서의 네트워크일 수 있다. 프로세서(130)가 프로세서의 네트워크일 때, 네트워크의 서로 다른 프로세서는 서로 다른 카메라로부터의 이미지를 분석할 수 있다. 네트워크의 프로세서는 정보를 공유하고 협력하여 임의의 원하는 방식으로 이미지를 분석할 수 있다. 프로세서 또는 프로세서들(130)은 상점(101)에 온사이트 또는 오프사이트일 수 있거나, 또는 온사이트 및 오프사이트 프로세싱의 조합이 사용될 수 있다. 카메라(121 및 122)는, 유선 또는 무선 연결을 포함하는 임의의 유형 또는 유형들의 네트워크 또는 링크를 통해 데이터를 프로세서에 전송할 수 있다. 프로세서(130)는, 메모리, RAM 또는 디스크를 포함하거나 이와 커플링되고, 그리고 본 발명의 실시예가 본원에서 상세히 설명된 모든 기능을 구현하기 위해 활용되거나 아니면 이를 포함할 수 있는 비-일시적 데이터 저장 컴퓨터-판독가능 매체로서 활용될 수 있다.
[00147] 프로세서 또는 프로세서들(130)은 또한, 상점의 3D 모델(131)에 액세스하거나 이를 수신할 수 있고 그리고 이 3D 모델을 사용하여 카메라 이미지를 분석할 수 있다. 모델(131)은 예를 들어, 상점 치수, 물품 저장 구역 및 물품의 위치, 및 카메라의 위치 및 배향을 설명할 수 있다. 예를 들어, 모델은, 선반 및 디스플레이와 같은 물품 저장 구역의 모델뿐만 아니라 상점의 평면도를 포함할 수 있다. 예를 들어, 이 모델은 모든 선반 유닛의 위치, 이의 높이뿐만 아니라 그 위에 놓인 물품을 자세히 설명하는, 상점의 플래노그램(planogram)으로부터 유추될 수 있다. 플래노그램은 소매 매장(retail space)에서 일반적이므로, 대부분의 상점에서 입수 가능할 수 있다. 이 플래노그램을 사용하여, 측정치는 예를 들어, 3D CAD 패키지를 사용하여 3D 모델로 변환될 수 있다.
[00148] 플래노그램이 입수 가능하지 않은 경우, 물품 저장 위치를 획득하기 위해 다른 기법이 사용될 수 있다. 하나의 예시적 기법은 상점 내의 모든 선반과 디스플레이의 위치, 형상 및 크기를 측정하는 것이다. 그런 다음, 이 측정치는 플래노그램 또는 3D CAD 모델로 직접 변환될 수 있다. 제2 예시적인 기법은, 벽, 바닥 및 천장을 포함하여, 상점 내 모든 표면의 일련의 이미지를 촬영하는 것을 수반한다. 각각의 표면을 적어도 2개의 이미지에서 볼 수 있도록 충분한 이미지가 촬영될 수 있다. 이미지는 스틸 이미지 또는 비디오 프레임일 수 있다. 이러한 이미지를 사용하여, 상점의 전체 모델을 3D로 재구성하기 위해 표준 3D 재구성 기법이 사용될 수 있다.
[00149] 하나 이상의 실시예에서, 카메라 이미지를 분석하기 위해 사용되는 3D 모델(131)은 부지의 일부만을 설명할 수 있거나 또는 부지의 선택된 피처만을 설명할 수 있다. 예를 들어, 이는 부지에 있는 하나 이상의 카메라의 위치 및 배향만을 설명할 수 있고; 이 정보는 예를 들어, 카메라 파라미터의 외부 보정(extrinsic calibration)에서 획득될 수 있다. 기본적인 최소 3D 모델은 이 카메라 정보만 포함할 수 있다. 하나 이상의 실시예에서, 상점에 있는 사람의 위치를 특정 제품 저장 구역과 연관시키는 것과 같은 특정 애플리케이션을 위해 상점의 전부 또는 일부를 설명하는 기하학적 구조가 3D 모델에 추가될 수 있다. 3D 모델은 또한, 카메라 이미지 분석에 영향을 줄 수 있는 폐색을 결정하는 데 사용될 수 있다. 예를 들어, 3D 모델은 사람이 캐비닛 뒤에 있어서 카메라의 관점(viewpoint)에서 캐비닛에 의해 폐색되는 것을 결정할 수 있고; 따라서, 사람을 추적하는 것 또는 사람 외형의 추출은 사람이 폐색되는 동안 해당 카메라의 이미지를 사용하지 않을 수 있다.
[00150] 카메라(121 및 122)(및 입수 가능한 경우 상점(101) 내 다른 카메라)는 물품 저장 구역, 이를테면 물품 저장 구역(102)뿐만 아니라 사람이 입장하고, 나가고, 순환하는 상점의 구역을 관찰할 수 있다. 시간 경과에 따른 카메라 이미지를 분석함으로써, 프로세서(130)는 사람이 상점을 두루 이동할 때 사람을 추적할 수 있다. 예를 들어, 사람(103)은 물품 저장 구역(102) 근처에 서 있는 시간(141)에 그리고 그가 물품 저장 구역을 벗어나 이동한 후인 나중 시간(142)에 관찰된다. 사람의 포지션과 3D 상점 모델(131)을 삼각측량하기 위해 가능한 다수의 카메라를 사용하여, 프로세서(130)는 시간(141)에서 사람(103)이 물품 저장 구역(102)에 충분히 가까워서 선반에서 물품을 이동시킬 수 있음을 검출할 수 있다. 시간(141 및 142)에서 저장 구역(102)의 이미지를 비교함으로써, 시스템은, 물품(111)이 이동되었음을 검출할 수 있고 그리고 그 사람이 시간(141)과 시간(142) 사이의 시간 범위에서 물품에 근접했기 때문에, 이 모션을 사람(103)에게 결부시킬 수 있다. 따라서, 시스템은 사람(103)이 선반(102)에서 물품(111)을 가져간 정보(150)를 도출한다. 이 정보는, 예를 들어, 자동화된 체크아웃, 절도 검출, 상점 조직 또는 쇼핑객 거동의 분석, 또는 임의의 다른 목적을 위해 사용될 수 있다. 이 예시적인 예에서, 사람(103)은 추적 목적을 위해 익명 태그(151)를 받는다. 이 태그는, 예를 들어, 쇼핑객의 신용 카드 정보와 같은 다른 정보와 상호참조될 수도 있고 상호참조되지 않을 수도 있고; 하나 이상의 실시예에서, 태그는 완전히 익명일 수 있으며 상점 두루 사람을 추적하는 데만 사용될 수 있다. 이는, 특정 사용자가 누구인지의 식별을 요구하지 않고도 제품과 사람의 연관을 가능하게 한다. 이는, 사람들이 일반적으로 아플 때 마스크를 착용하거나, 예를 들어, 얼굴을 덮는 다른 의복을 착용하는 현장에서 중요하다. 또한, 일반적으로 시스템이 개인의 물품 목록, 즉 쇼핑 카트 목록을 보여주기 위해 활용할 수 있고 그리고 개인이, 예를 들어, 물품에 대해 지불할 수 있게 하는 디스플레이를 포함하는 전자 디바이스(119)가 도시된다.
[00151] 하나 이상의 실시예에서, 카메라 이미지는, 어떤 제품이 제거되는지를 또는 가져가거나 분배된 제품의 수량을 결정하기 위해, 다른 센서 데이터로 보충될 수 있다. 예를 들어, 선반(102)과 같은 제품 선반은, 제품이 선반에서 가져가졌는지, 이동되는지, 또는 교체되지를 검출하는 데 도움이 되는 무게 센서 또는 모션 센서를 가질 수 있다. 하나 이상의 실시예는 가져가거나 분배된 제품의 수량을 나타내는 데이터를 수신하고 프로세싱할 수 있으며, 이 수량을 사람에게 결부시켜, 예를 들어, 이 수량에 대해 사람의 계정에 청구할 수 있다. 예를 들어, 음료와 같은 액체 분배기는 분배되는 액체의 양을 측정하는 유량 센서를 가질 수 있고; 유량 센서로부터의 데이터는 이 양을 분배 시에 분배기에 근접한 사람에게 결부시키기 위해 시스템에 송신될 수 있다. 또한, 사람이 버튼을 누르거나 다른 입력을 제공하여 어떤 제품이나 수량이 분배되어야 하는지 결정할 수 있고; 버튼 또는 다른 입력 디바이스로부터의 데이터가 시스템에 송신되어 사람에게 어떤 물품과 수량을 결부시킬지 결정할 수 있다.
[00152] 도 2는 도 1의 예에 계속해서 자동화된 체크아웃을 도시한다. 하나 이상의 실시예에서, 프로세서(130) 또는 다른 링크된 시스템은 사람(103)이 상점을 떠나고 있거나 또는 자동화된 체크아웃 구역에 입장하고 있다는 것을 검출할 수 있다. 예를 들어, 카메라 또는 카메라들(이를테면, 카메라(202))은 사람(103)이 상점을 퇴장할 때 사람(103)을 추적할 수 있다. 시스템(130)이 사람(103)이 물품(111)과 같은 물품을 가지고 있는 것으로 결정한 경우, 그리고 시스템이 자동화된 체크아웃을 지원하도록 구성된 경우, 시스템(130)은 메시지(203)를 송신하거나 그렇지 않으면 판매 시점 시스템(210)과 같은 체크아웃 시스템과 인터페이싱할 수 있다. 이 메시지는 예를 들어, 사람(103)이 가져간 것으로 여겨지는 물품(또는 물품들)에 대한 자동화된 청구(211)를 트리거할 수 있으며, 이는 예를 들어, 금융기관 또는 시스템(212)에 전송될 수 있다. 하나 이상의 실시예에서, 메시지(213)는 또한, 예를 들어, 도 1에 도시된 사람의 전자 디바이스(119) 상에서 청구를 확인하는 사람(103)에게 디스플레이되거나 송신될 수 있다. 메시지(213)는 예를 들어, 퇴장하는 사람이 볼 수 있는 디스플레이에 또는 체크아웃 구역에 디스플레이될 수 있거나, 또는 예를 들어, 텍스트 메시지 또는 이메일을 통해 사람에게, 예를 들어, 사용자와 연관된 컴퓨터 또는 모바일 디바이스(119)(도 1 참조)에 송신될 수 있다. 하나 이상의 실시예에서, 메시지(213)는 음성 메시지로 변환될 수 있다. 완전 자동화된 청구(211)는 예를 들어, 사람(103)의 아이덴티티가 예를 들어, 신용 카드와 같은 금융 정보와 연관될 것을 요구할 수 있다. 하나 이상의 실시예는 예를 들어, 인간 계산원을 필요로 하지 않을 수 있는 다른 형태의 체크아웃을 지원할 수 있지만, 체크아웃 또는 퇴장시 지불의 형태를 제공하도록 사람(103)에게 요청할 수 있다. 도 2에 도시된 것과 같은 자동화된 체크아웃 시스템의 잠재적인 이점은, 상점에 필요한 노동력이 제거되거나 크게 줄어들 수 있다는 것이다. 하나 이상의 실시예에서, 상점이 사용자가 가져갔다고 여기는 물품의 목록은, 사용자의 검토 또는 허가(approval)를 위해 사용자와 연관된 모바일 디바이스에 전송될 수 있다.
[00153] 도 1에 예시된 바와 같이, 하나 이상의 실시예에서, 2개 이상의 카메라 이미지 시퀀스의 분석은 상점에 있는 사람이 물품 저장 구역에 있는 물품과 상호작용했음을 결정하는 데 사용될 수 있다. 도 3은 한 쌍의 이미지(예를 들어, 물품 이동 전에 획득된 이미지(301) 및 물품 이동 후에 획득된 이미지(302))로부터 이동된 물품을 식별하기 위해 인공 신경망(300)을 사용하는 예시적인 실시예를 도시한다. 하나 이상의 실시예는, 이로 제한되는 것은 아니지만 2개의 이미지를 포함하는, 임의의 수의 이미지를 분석할 수 있다. 이러한 이미지(301 및 302)는 예를 들어, 신경망(300)의 입력 계층(311)에 입력으로서 공급될 수 있다. (예를 들어, 각각의 이미지의 각각의 픽셀의 각각의 컬러 채널은 신경망의 입력 계층(311)에서 입력 뉴런의 값으로서 설정될 수 있다.) 그런 다음, 신경망(300)은 임의의 원하는 방식으로 연결되고 조직된 임의의 수의 추가 계층(312)을 가질 수 있다. 예를 들어, 제한 없이, 신경망은 임의의 수의 완전 연결 계층, 컨볼루션 계층, 반복 계층 또는 임의의 다른 유형의 뉴런 또는 연결을 사용할 수 있다. 하나 이상의 실시예에서, 신경망(300)은 2개의 이미지(301 및 302)를 비교하도록 구성된 샴 신경망일 수 있다. 하나 이상의 실시예에서, 신경망(300)은 생성 적대 네트워크(generative adversarial network), 또는 입력-출력 매핑을 수행하는 임의의 다른 유형의 네트워크일 수 있다.
[00154] 신경망(300)의 출력 계층(313)은 예를 들어, 각각의 물품이 이동되었을 확률을 포함할 수 있다. 하나 이상의 실시예는, 가장 높은 확률을 갖는 물품, 이 경우 출력 뉴런(313)을 선택할 수 있고 그리고 물품의 이동 시에 물품 저장 구역 근처의 사람과 이 물품의 이동을 연관시킬 수 있다. 하나 이상의 실시예에서, 물품이 이동되지 않았음을 나타내는 출력이 있을 수 있다.
[00155] 도 3의 신경망(300)은 또한 물품의 이동 유형을 분류하는 출력을 갖는다. 이 예시적인 예에는 세 가지 유형의 모션이 있고; 예를 들어, 물품이 이미지(301)에는 나타나지만, 이미지(302)에는 나타나지 않음을 나타내는 가져가기 행동(321); 예를 들어, 물품이 이미지(302)에는 나타나지만, 이미지(301)에는 나타나지 않음을 나타내는 놓기 행동(322); 및 예를 들어, 물품이 두 이미지 모두에 나타나지만, 상이한 위치에 있음을 나타내는 이동 행동(323). 이러한 행동은 예시적이고; 하나 이상의 실시예는 물품의 이동 또는 재배열을 임의의 원하는 부류로 분류할 수 있고, 예를 들어, 각각의 부류에 확률을 할당할 수 있다. 하나 이상의 실시예에서, 물품 확률 및 행동 부류 확률을 결정하기 위해 별도의 신경망이 사용될 수 있다. 도 3의 예에서, 가져가기 클래스(321)는 가장 높은 계산된 확률을 가지며, 이는 시스템이, 이미지 저장 구역 근처의 사람이 물품을 저장 구역에서 가져갔음을 검출할 가능성이 가장 높다는 것을 나타낸다.
[00156] 어떤 물품 또는 물품들이 이동했는지를 또는 수행된 이동 행동의 유형을 결정하기 위한 도 3에 표시된 바와 같은 신경망 분석은, 하나 이상의 실시예에서 사용될 수 있는 이미지 분석을 위한 예시적인 기법이다. 하나 이상의 실시예는 이미지를 분석하여 이동된 물품 및 수행된 행동을 결정하기 위해 임의의 원하는 기법 또는 알고리즘을 사용할 수 있다. 예를 들어, 하나 이상의 실시예는 물품의 이동을 식별하기 위해 이미지(301 및 302)에 간단한 프레임 차이를 수행할 수 있다. 하나 이상의 실시예는 이미지(301 및 302)를 신경망 또는 다른 분석 시스템에 공급하기 전에 임의의 원하는 방식으로 이를 사전프로세싱할 수 있다. 예를 들어, 제한 없이, 사전프로세싱은 이미지를 정렬하고, 그림자를 제거하고, 조명을 균일화하고, 컬러 차이를 정정하거나, 기타 수정을 수행할 수 있다. 이미지는 컬러 공간 변환, 가장자리 검출, 평활화 또는 선명화, 모폴로지 오퍼레이터의 적용 또는 필터를 사용한 컨볼루션과 같은 임의의 기존 이미지 프로세싱 알고리즘으로 프로세싱될 수 있다.
[00157] 하나 이상의 실시예는 기계 학습 기술을 사용하여 도 3에 적용된 신경망 알고리즘과 같은 분류 알고리즘을 도출할 수 있다. 도 4는 도 3의 신경망(300)의 가중치를 학습하기 위한 예시적인 프로세스를 도시한다. 네트워크(300)를 훈련시키기 위해 예들의 트레이닝 세트(401)가 수집되거나 생성되어 사용될 수 있다. 예(402 및 403)와 같은 훈련 예는 예를 들어, 물품 저장 구역의 이전 이미지 및 이후 이미지, 그리고 이동된 물품 및 물품에 적용된 행동 유형을 나타내는 출력 라벨(412 및 413)을 포함할 수 있다. 이러한 예는 수동으로 구성될 수 있고, 또는 하나 이상의 실시예에서, 이미지를 캡처한 다음 물품을 사람과 연관시키는 체크아웃 데이터를 사용하여 훈련 예를 구축하는 자동화된 훈련 프로세스가 있을 수 있다. 도 4a는 시스템에 의한 오분류를 정정하는 예로 훈련 데이터를 증강시키는 예를 도시한다. 이 예에서, 상점 체크아웃은 완전히 자동화되지 않고; 대신, 계산원(451)이 고객의 체크아웃을 돕는다. 시스템(130)은 카메라 이미지를 분석하고 메시지(452)를 계산원의 판매 시점 시스템(453)으로 전송했다. 메시지는 고객이 물품 저장 구역(102)에서 제거한 물품에 대한 시스템의 결정을 포함한다. 그러나, 이 경우 시스템에서 오류가 발생했다. 계산원(451)은 오류를 알아채고 올바른 물품으로 판매 시점 시스템에 정정을 입력한다. 그런 다음, 정정된 물품 및 카메라로부터의 이미지가 신경망(300)을 재훈련하는 데 사용될 수 있는 새로운 훈련 예(454)로서 송신될 수 있다. 시간이 지나면, 오류율이 허용가능한 미리정의된 수준으로 수렴할 때, 계산원이 배제될 수 있다. 하나 이상의 실시예에서, 사용자는 카메라를 통해 신경망에 오류 물품을 보여주고 계산원(451)없이 시스템을 훈련시킬 수 있다. 다른 실시예에서, 계산원(451)은 원격적일 수 있고, 비디오 또는 이미지 및 오디오 기반 시스템을 포함하는 임의의 통신 방법을 통해 액세스될 수 있다.
[00158] 하나 이상의 실시예에서, 상점에 있는 사람은 그가 상점을 두루 이동할 때 추적될 수 있다. 여러 사람이 동시에 상점에서 이동할 수 있으므로, 이미지 분석을 사용하여 사람들 간을 구분하여, 사람을 정확하게 추적할 수 있도록 하는 것이 유익할 수 있다. 도 5는 서로 다른 사람을 구별하는 데 사용될 수 있는 예시적인 방법을 도시한다. 새로운 사람(501)이 상점에 입장하거나 시간(510)에 상점의 특정 구역 또는 구역들에 입장할 때, 카메라(511, 512, 513)와 같은 카메라로부터의 사람의 이미지가 분석되어, 상점 내 다른 사람과 그 사람을 구분하기 위해 사용될 수 있는 그 사람의 외형에 대한 특정 특징(531)을 결정할 수 있다. 이러한 구별되는 특징은 예를 들어, 제한 없이, 특정 신체 부위의 크기 또는 형상; 사람의 헤어의 컬러, 형상, 스타일 또는 크기; 사람의 신체나 의류에 있는 선택된 랜드마크 사이의 거리; 그 사람의 의류, 보석류, 악세서리 또는 소유물의 컬러, 질감, 재료, 스타일, 크기 또는 유형; 그 사람이 걷거나 움직일 때 사용하는 보행 유형; 사람이 손, 팔, 다리 또는 머리와 같은 그 사람의 신체의 임의의 부위로 행하는 모션 또는 속도; 그리고 그 사람이 행하는 제스처를 포함할 수 있다. 하나 이상의 실시예는 고해상도 카메라 이미지를 사용하여 생체 정보, 이를테면 사람의 지문이나 손자국, 망막 또는 다른 피처를 관찰할 수 있다.
[00159] 도 5에 도시된 예에서, 시간(520)에서, 사람(502)이 상점에 입장하고 새로운 사람인 것으로 검출된다. 이 사람에 대해 새로운 구별되는 특징(532)이 측정되고 관찰된다. 원래 사람(501)이 추적되었으며 이제 새로운 위치(533)에 있는 것으로 관찰된다. 위치(533)에 있는 사람의 관찰은 구별되는 특징(531)과 매칭되어 사람이 사람(501)인 것으로서 식별된다.
[00160] 도 5의 예에서, 구별되는 특징이 사람(501)과 사람(502)에 대해 식별되었지만, 이들 개인의 아이텐티티는 익명으로 유지된다. 태그(541 및 542)가 내부 추적 목적으로 이러한 개인에게 할당되지만, 사람의 실제 아이텐티티는 알려지지 않는다. 이 익명 추적은, 개인이 자신의 아이덴티티가 무인 상점 시스템에 알려지는 것을 원하지 않는 환경에서 유용할 수 있다. 또한, 예를 들어, 사람의 얼굴 이미지와 같은 민감한 식별 정보는 추적에 사용될 필요가 없고; 하나 이상의 실시예는 구별되는 특징(531 및 532)과 같은 다른 덜 민감한 정보에 기반하여 사람을 추적할 수 있다. 앞서 설명된 바와 같이, 일부 구역에서는, 사람들이 아플 때 마스크를 쓰거나 아니면 안면 보호복을 착용하여, 사용자의 얼굴을 기반으로 식별하는 것이 불가능할 수 있다.
[00161] 사람(501 및 502)의 구별되는 특징(531 및 532)은 상점에 재방문하는 방문자를 인식하기 위해 시간이 지남에 따라 저장될 수도 또는 저장되지 않을 수도 있다. 일부 상황에서, 상점은 재방문자를 추적하길 원할 수 있다. 예를 들어, 각각의 방문자에 대해 구별되는 특징이 저장되고 검색되는 경우, 여러번의 방문에 대한 쇼핑객 거동이 추적될 수 있다. 이 정보를 저장하면 이전에 상점에서 도둑질을 한 도둑을 식별하는 데 유용할 수 있으므로, 도둑이나 잠재적 도둑이 상점에 다시올 때 상점 직원이나 당국에 경고를 보낼 수 있다. 다른 상황에서, 상점은, 구매자가 상점을 떠날 때, 예를 들어, 쇼핑객이 시간이 지남에 따라 저장되길 원하지 않는 정보를 상점이 수집할 잠재적 우려가 있는 경우, 구별 정보를 삭제하길 원할 수 있다.
[00162] 하나 이상의 실시예에서, 시스템은 상점 두루 사람의 이동을 추적 할 때 사람 주위의 영향 볼륨의 3D 필드를 계산할 수 있다. 이 영향 볼륨의 3D 필드는 예를 들어, 사람이 물품을 만지거나 물품을 이동할 수 있는 구역을 나타낼 수 있다. 예를 들어, 이동된 물품의 검출은, 해당 사람에 대한 영향 볼륨의 3D 필드가 물품의 이동 시에 물품 근처에 있는 경우에만 추적되는 사람과 연관될 수 있다.
[00163] 사람 주위의 영향 볼륨의 3D 필드를 계산하기 위해 다양한 방법이 사용될 수 있다. 도 6a 내지 6e는 하나 이상의 실시예에서 사용될 수 있는 방법을 예시한다. (이 도면은 설명의 편의를 위해 2D 도면을 사용하여 영향 볼륨의 필드의 구성을 예시하지만, 방법은 사람 주위에 3D 볼륨을 구축하기 위해 3차원으로 적용될 수 있다.) 사람의 이미지 또는 이미지들(601)에 기반하여, 사람의 신체에 대한 랜드마크를 식별하기 위해 이미지 분석이 사용될 수 있다. 예를 들어, 랜드마크(602)는 사람의 왼쪽 팔꿈치일 수 있다. 도 6b는 사람의 신체 상의 18 개의 서로 다른 랜드마크를 식별하는 분석 프로세스를 예시한다. 하나 이상의 실시예는 임의의 원하는 상세 레벨로 신체 상의 임의의 수의 랜드마크를 식별할 수 있다. 사람의 관절 이동을 추적하기 위해 랜드마크가 골격으로 연결할 수 있다. 상점과 연관된 3D 공간에서 랜드마크 위치가 식별되면, 영향 볼륨의 3D 필드를 구성하기 위한 한 가지 방법은 지정된 임계 거리의 반경으로 각각의 랜드마크 주변의 구(sphere)를 계산하는 것이다. 예를 들어, 하나 이상의 실시예는 각각의 랜드마크로부터 25cm 오프셋의 임계 거리를 사용할 수 있다. 도 6c는 랜드마크(602) 주위에 반경(604)을 갖는 구(603)를 도시한다. 이러한 구는 도 6d에 예시된 바와 같이 각각의 랜드마크 주위에 구성될 수 있다. 그런 다음, 영향 볼륨의 3D 필드는, 도 6e에서 영향 볼륨의 3D 필드(605)로 예시된 바와 같이, 랜드마크 주위의 이러한 구들의 합체로서 계산될 수 있다.
[00164] 사람 주위의 영향 볼륨의 3D 필드를 계산하는 또 다른 방법은, 각각의 랜드마크의 위치에 대한 확률 분포를 계산하고 그리고 랜드마크 주위의 영향 볼륨의 3D 필드를, 이 확률 분포로부터 지정된 임계 확률 양을 포함하는 공간 내 구역으로서 정의하기 위한 것이다. 이 방법은 도 7a 및 7b에 예시된다. 사람의 이미지는 도 6b와 관련하여 설명된 바와 같이 랜드마크 포지션(701)을 계산하는 데 사용된다. 상점 두루 사람이 추적될 때, 추적 프로세스의 불확실성은 각각의 랜드마크의 3D 위치에 대한 확률 분포를 산출한다. 이 확률 분포는, 도 8과 관련하여 아래에서 설명되는 파티클 필터를 포함하여, 다양한 방법을 사용하여 계산 및 추적될 수 있다. 예를 들어, 도 7a의 오른쪽 팔꿈치 랜드마크(702)에 대해, 랜드마크의 포지션에 대해 확률 밀도(703)가 계산될 수 있다. (이 밀도는 도 7a에서 예시를 용이하게 하기 위해 2D 도면으로 도시되지만, 추적에서, 이는 일반적으로 3D 공간 확률 분포일 것이다.) 각각의 랜드마크에 대한 이 확률 밀도의 지정된 임계 확률 양을 포함하는 볼륨이 결정될 수 있다. 예를 들어, 표면으로 둘러싸인 볼륨은 확률 분포(703)의 95% (또는 임의의 다른 원하는 양)를 둘러쌀 수 있다. 사람 주위의 영향 볼륨의 3D 필드는 도 7b에 도시된 바와 같이 각각의 랜드마크 주위의 이러한 볼륨(704)의 합체로서 계산될 수 있다. 각각의 랜드마크 주위의 볼륨의 형상 및 크기는 서로 다른 랜드마크를 추적하기 위한 불확실성의 차이를 반영하여, 상이할 수 있다.
[00165] 도 8은, 사람이 상점을 두루 이동할 때, 시간이 지남에 따라 사람을 추적하기 위해 하나 이상의 실시예에서 사용될 수 있는 기술을 예시한다. 시간 상 임의의 지점에서 사람의 상태는, 예를 들어, 사람의 신체 상의 특정 랜드마크의 (3차원) 포지션 및 속도와 같은 특정 상태 변수의 확률 분포로서 표현될 수 있다. 이 확률 분포를 표현하는 하나의 접근방식은 파티클 필터를 사용하는 것이며, 여기서 분포에서 가중된 샘플을 표현하기 위해 한 세트의 파티클이 시간이 지남에 따라 전파된다. 도 8의 예에서, 예시를 위해 2개의 파티클(802 및 803)이 도시되고; 실제로, 임의의 시점에서의 확률 분포는 수백 또는 수천 개의 파티클로 표현될 수 있다. 상태(801)를 후속 시점으로 전파하기 위해, 하나 이상의 실시예는 반복적 예측/정정 루프를 사용할 수 있다. 상태(801)는 먼저 예측 단계(811)를 통해 전파되며, 이는 예를 들어, 파티클의 다음 상태가 무엇인지 각각의 파티클에 대해 추정하기 위해 물리 모델을 사용할 수 있다. 물리 모델은, 예를 들어, 제한 없이, 랜드마크의 상대적 위치에 대한 제약(예를 들어, 왼쪽 발과 왼쪽 무릎 사이의 거리가 고정된다는 제약), 신체 부위가 이동할 수 있는 최대 속도 또는 가속도 및 바닥, 벽, 고정물(fixture) 또는 다른 사람과 같은, 매장 내 장벽으로 인한 제약을 포함할 수 있다. 이러한 물리 모델 컴포넌트는 예시적이고; 하나 이상의 실시예는 하나의 시간 기간에서 다른 시간 기간으로 추적 상태를 전파하기 위해 임의의 유형의 물리 모델 또는 다른 모델을 사용할 수 있다. 예측 단계(811)는 또한, 이동의 불확실성을 반영할 수 있으므로, 확률 분포의 확산은 예를 들어, 각각의 예측 단계에서 시간에 따라 증가할 수 있다. 그런 다음, 예측 단계(811) 이후의 파티클은 정정 단계(812)를 통해 전파되며, 이는 카메라 이미지의 측정치로부터 획득된 정보뿐만 아니라 이용가능한 경우 다른 정보를 통합한다. 정정 단계는, 이미지(821, 822, 823)와 같은 카메라 이미지 및 각각의 카메라의 카메라 투영에 대한 정보뿐만 아니라 이용가능한 경우 다른 카메라 보정 데이터를 사용한다. 이미지(821, 822 및 823)에 예시된 바와 같이, 카메라 이미지는 사람의 폐색으로 인해 또는 사람의 신체 일부만 캡처하는 이미지로 인해 부분적 정보만을 제공할 수 있다. 이용가능한 정보는 예측을 정정하는 데 사용되며, 이는 예를 들어, 사람 상태의 확률 분포에서의 불확실성을 줄일 수 있다. 이 예측/정정 루프는 상점 두루 사람을 추적하기 위해 임의의 원하는 간격으로 반복될 수 있다.
[00166] 사람이 상점을 두루 이동할 때 사람을 추적함으로써, 시스템의 하나 이상의 실시예는 상점 두루 사람의 3D 궤도를 생성할 수 있다. 이 3D 궤적은 사람을 사람과 상호작용하는 물품과 연관시키기 위해, 물품 저장 구역에서 물품의 이동에 대한 정보와 결합될 수 있다. 물품이 이동할 때에 사람의 궤적이 물품에 근접한 경우, 물품의 이동은 예를 들어, 해당 사람에 결부될 수 있다. 도 9는 이 프로세스를 예시한다. 예시의 편의를 위해, 사람의 궤적 및 물품 포지션은 2차원으로 도시되고; 하나 이상의 실시예는 예를 들어, 상점의 3D 모델을 사용하여 3차원으로 유사한 분석을 수행할 수 있다. 사람의 궤적(901)은, 예를 들어, 도 8에 예시된 것과 같은 추적 프로세스를 사용하여 시간에 따라 추적된다. 각각의 사람에 대해, 영향 볼륨의 3D 필드(902)는, 예를 들어, 사람의 신체 상의 랜드마크의 위치 또는 확률 분포에 기반하여, 각각의 시점에서 계산될 수 있다. (다시, 예시의 편의를 위해 도 9에 표시된 영향 볼륨의 필드는 2차원이지만, 구현에서는 이 볼륨은 3차원일 수 있다.) 시스템은 상점 두루 3D 영향 볼륨의 궤적을 계산한다. 도 3에 예시된 분석과 같은 카메라 이미지 분석을 사용하여, 물품의 모션(903)이 위치(904)에서 검출된다. 한 상점에서 여러 사람이 추적될 수 있기 때문에, 모션은 모션 당시 이 위치에 또는 그 근처에 영향 볼륨의 필드가 있던 사람에 결부될 수 있다. 궤적(901)은, 이 추적된 사람의 영향 볼륨의 필드가 이 모션에 시간적으로 근접한 시간 간격 동안 이동된 물품의 위치와 교차했음을 도시하며; 따라서 물품 이동이 이 사람에 결부될 수 있다.
[00167] 하나 이상의 실시예에서, 시스템은 사람의 영향 볼륨의 3D 필드와 교차하는 물품 저장 구역에서만 물품 이동을 찾아냄으로써 도 9와 관련하여 위에서 설명된 분석을 최적화할 수 있다. 도 10은 이 프로세스를 예시한다. 시간(141) 지점에서 또는 시간 간격에 걸쳐, 사람(103)의 영향 볼륨의 추적된 3D 필드(1001)는 물품 저장 구역(102) 근처에 있는 것으로 계산된다. 따라서, 시스템은 물품 저장 구역(102)의 교차점(1011) 및 사람(1032) 주위의 영향 볼륨의 3D 필드(1001)를 계산하고, 이미지(1011)와 같이 이 영역의 뷰를 포함하는 카메라 이미지의 위치를 찾는다. 후속 시간(142)에서, 예를 들어, 사람(103)이 물품 저장 구역(102)으로부터 멀어졌다고 결정될 때, 동일한 교차된 구역에 대한 이미지(1012)(또는 이러한 여러 이미지)가 획득된다. 그런 다음, 이 두 이미지는, 예를 들어, 임의의 물품이 이동되었는지 여부, 어떤 물품이 (있는 경우) 이동되었는지 그리고 수행된 행동의 유형을 검출할 수 있는 신경망(300)에 입력으로서 공급된다. 검출된 물품 모션은 사람(103)에 결부되는 데, 이는 이 사람(103)은 영향 볼륨의 필드가 모션 시에 물품 저장 구역과 교차한 사람이기 때문이다. 신경망(300)의 분류 분석을, 사람의 영향 볼륨의 필드와 물품 저장 구역의 교차점을 나타내는 이미지에만 적용함으로써, 프로세싱 자원이 효율적으로 사용될 수 있으며 추적된 사람에 결부될 수 있는 물품 이동에만 집중될 수 있다.
[00168] 도 11 내지 도 15는 전형적인 상점 환경에서 작동하는 시스템의 실시예의 스크린샷을 도시한다. 도 11은 상점을 두루 이동하는 쇼핑객을 촬영한 3개의 카메라 이미지들(1101, 1102 및 1103)을 도시한다. 이미지(1101)에서는 두 명의 쇼핑객(1111 및 1112)이 식별되고 추적되었다. 이미지(1101)는, 각각의 쇼핑객을 추적하고 각각의 쇼핑객 주위의 영향 볼륨의 3D 필드를 생성하기 위해 사용되는, 각각의 쇼핑객에 대해 식별되는 랜드마크를 도시한다. 랜드마크와 다른 피처들, 이를테면 의류 사이의 거리는, 쇼핑객(1111 및 1112) 간을 구별하고 이들이 상점을 두루 이동할 때 이들을 개별적으로 추적하는 데 사용될 수 있다. 이미지들(1102 및 1103)은, 쇼핑객(1111)이 물품 저장 구역(1113)에 접근하고 물품 저장 구역에서 물품(1114)을 집어 올 때의 뷰들을 도시한다. 이미지들(1121 및 1123)은, 쇼핑객(1111)이 물품을 집어올리기 이전 및 이후 물품 저장 구역(1113)의 이미지들(1101 및 1103)로부터의 클로즈업 뷰를 각각 도시한다.
[00169] 도 12는 도 11에 도시된 예를 계속하며, 물품 저장 구역의 이미지들(1121 및 1123)이, 있는 경우, 쇼핑객(1111)에 의해 이동된 물품을 결정하기 위해 신경망(1201)에 입력으로서 공급되는 방법을 도시한다. 네트워크는 물품(1202)에 가장 높은 확률을 할당한다. 도 13은 이 물품(1202)의 모션을 쇼핑객(1111)에 결부시키고 그리고 해당 쇼핑객이 물품을 들어올리는 것을 나타내기 위해 행동(1301)을 할당하는 방법을 도시한다. 이 행동(1301)은 또한, 신경망(1201) 또는 유사한 신경망에 의해 검출될 수 있다. 유사하게, 시스템은, 물품(1303)이 구매자(1112)에 의해 이동되었음을 검출하고 이 물품 이동에 행동(1302)을 할당한다.
[00170] 도 13은 또한, 시스템이, 쇼핑객이 집어 든 물품(1202)과 관련하여 쇼핑객(1111)에 의한 "보기(look at)" 행동(1304)을 검출했다는 것을 예시한다. 하나 이상의 실시예에서, 시스템은, (예를 들어, 랜드마크로서) 사람의 눈을 추적하고 눈에서 물품을 향해 시야를 투영함으로써 사람이 물품을 보고 있다는 것을 검출할 수 있다. 물품이 눈의 시야 내에 있으면, 그 사람이 물품을 보고 있는 것으로 식별될 수 있다. 예를 들어, 도 13에서, 쇼핑객(1111)의 눈 랜드마크로부터 투영된 시야는 영역(1305)이고, 시스템은 물품(1202)이 이 영역 내에 있음을 인식할 수 있다. 하나 이상의 실시예는 해당 물품이 사람에 의해 이동되었는지 여부에 관계없이 사람이 물품을 보고 있음을 검출할 수 있고; 예를 들어, 사람이 브라우징하는 동안 물품 저장 구역에 있는 물품을 보고 추후에 물품을 만지지 않는 쪽을 선택할 수 있다.
[00171] 하나 이상의 실시예에서, 사람이 무엇을 보고 있는지 결정하기 위해 상점 기준 프레임에 대한 머리 배향을 계산하기 위해, 눈 대신에 또는 눈에 추가하여 다른 머리 랜드마크가 사용될 수 있다. 머리 배향은 예를 들어, 3D 삼각측량 머리 랜드마크를 통해 계산될 수 있다. 하나 이상의 실시예는, 예를 들어, 2D 랜드마크에서 3D로 시선을 추정하도록 훈련된 신경망을 사용하여, 2D 랜드마크로부터 머리 배향을 추정할 수 있다.
[00172] 도 14는 쇼핑객 주위에 영향 볼륨의 3D 필드를 생성하는 시스템의 스크린샷(1400)을 도시한다. 영향 볼륨의 3D 필드의 표면(1401)은 표면상의 한 세트의 점들로서 이미지 오버레이에 표현된다. 표면(1401)은, 예를 들어, 사람의 오른쪽 발에 대한 랜드마크(1402)와 같이, 사람에 대해 식별된 랜드마크로부터의 오프셋으로서 생성될 수 있다. 스크린샷(1410)은 상점의 3D 모델에서 사람과 연관된 랜드마크의 위치를 도시한다.
[00173] 도 15는 도 14의 예를 계속하며, 카메라 이미지들(1501 및 1502)에서 사람이 상점을 두루 이동할 때 사람과 그의 영향 볼륨의 3D 필드를 추적하는 것 그리고 스크린샷들(1511 및 1512)의 3D 모델에서 사람의 랜드마크의 궤적의 생성을 도시한다.
[00174] 하나 이상의 실시예에서, 시스템은 상점 내 카메라로부터 획득된 이미지를 변환하기 위해 카메라 보정 데이터를 사용할 수 있다. 보정 데이터는, 제한 없이, 예를 들어, 내부 카메라 파라미터, 외부 카메라 파라미터, 카메라 이미지 피드를 공통 시간 스케일로 정렬하기 위한 시간 보정 데이터, 및 카메라 이미지를 공통 컬러 스케일로 정렬하기 위한 컬러 보정 데이터를 포함할 수 있다. 도 16은 이미지를 변환하기 위해 카메라 보정 데이터를 사용하는 프로세스를 예시한다. 일련의 원시 이미지(1601)는 상점 내 카메라(121)로부터 획득된다. 내부 카메라 파라미터에 대한 정정(1602)이 이러한 원시 이미지에 적용되어, 정정된 시퀀스(1603)가 생성된다. 내부 카메라 파라미터는, 예를 들어, 카메라의 초점 거리, 이미징 센서의 형상 및 배향 또는 렌즈 왜곡 특징을 포함할 수 있다. 그런 다음, 정정된 이미지(1603)는, 상점 내 카메라의 위치 및 배향에 기반하여 카메라 투영 변환을 설명하는 외부 카메라 파라미터를 사용하여, 이미지를 3D 상점 모델에 매핑하기 위해 단계(1604)에서 변환된다. 결과적으로 변환된 이미지(1605)는 상점의 좌표계(1606)에 대해 정렬된 투영이다. 이러한 변환된 이미지(1605)는 상점 내 상이한 카메라들 사이에서 가능한 시간 오프셋을 감안하기 위해 시간적으로 시프트될 수 있다. 이 시프트(1607)는 상점 내 상이한 카메라로부터의 프레임을 공통 시간 스케일에 동기화시킨다. 마지막 변환(1609)에서, 시간 정정된 프레임(1608)의 픽셀의 컬러는 상점 내 카메라에 걸쳐 공통 컬러 공간에 컬러를 매핑하도록 수정되어, 최종 보정된 프레임(1610)을 생성할 수 있다. 카메라 하드웨어 또는 펌웨어의 차이 때문에 또는 상점에 따라 다른 조명 조건 때문에 카메라에 따라 컬러가 다를 수 있고; 컬러 정정(1609)은, 물체가 상점 내 어디에 있든 상관없이, 모든 카메라가 동일한 컬러를 갖는 동일한 물체를 보는 것을 보장한다. 공통 컬러 공간에 대한 이러한 매핑은 예를 들어, 추적이 부분적으로 물품 또는 사람의 컬러에 의존할 수 있으므로, 사람 또는 물품이 한 카메라의 시야에서 다른 카메라로 이동할 때, 사람 또는 사람에 의해 선택된 물품의 추적을 가능하게 할 수 있다.
[00175] 도 16에 예시된 카메라 보정 데이터는 임의의 원하는 소스에서 획득될 수 있다. 하나 이상의 실시예는 또한, 이 카메라 보정 데이터의 일부 또는 전부를 생성하기 위한 시스템, 프로세스 또는 방법을 포함할 수 있다. 도 17은, 예를 들어, 내부 카메라 파라미터, 외부 카메라 파라미터, 시간 동기화를 위한 시간 오프셋, 및 각각의 카메라에서 공통 컬러 공간으로의 컬러 매핑을 포함하는 카메라 보정 데이터(1701)를 생성하는 실시예를 예시한다. 이 예에서는 상점(1702)이 3개의 카메라(1703, 1704 및 1705)를 포함한다. 이러한 카메라로부터의 이미지는 보정 절차 동안 캡처되고 카메라 보정 시스템(1710)에 의해 분석된다. 이 시스템은, 상점 운영 동안 사람 및 물품을 추적하는 데 사용되는 시스템 또는 시스템들과 동일하거나 상이할 수 있다. 보정 시스템(1710)은 하나 이상의 프로세서를 포함하거나 그와 통신할 수 있다. 내부 카메라 파라미터의 보정을 위해, 예를 들어, 표준 카메라 보정 격자가 상점(1702)에 배치될 수 있다. 외부 카메라 파라미터의 보정을 위해, 공지된 크기 및 형상의 마커가, 예를 들어, 상점 내 공지된 위치에 배치될 수 있으므로, 카메라(1703, 1704 및 1705)의 배향 및 포지션이 마커의 이미지로부터 도출될 수 있다. 대안적으로, 마커 포지션 및 카메라 포지션 및 배향에 대해 동시에 해결하는 반복 절차가 사용될 수 있다.
[00176] 하나 이상의 실시예에서 사용될 수 있는 시간적 보정 절차는, 광원(1705)을 상점에 배치하고 광원(1705)으로부터의 광 플래시를 펄싱하는 것이다. 각각의 카메라가 플래시를 관찰하는 시간은 공통 시간 스케일에서 각각의 카메라의 시간 오프셋을 도출하는 데 사용될 수 있다. 광원(1705)으로부터 플래시되는 광은 가시광, 적외선, 또는 임의의 원하는 파장 또는 파장들일 수 있다. 모든 카메라가 단일 광원을 관찰할 수 없는 경우, 다수의 동기화된 광원이 사용될 수 있거나, 또는 카메라가, 공통 시간 스케일로, 오버랩되는 그룹에서 반복적으로 동기화될 수 있다.
[00177] 하나 이상의 실시예에서 사용될 수 있는 컬러 보정 절차는, 공지된 컬러의 하나 이상의 마커를 상점에 배치하고, 그리고 카메라에 의해 관찰되는 이러한 마커의 이미지를 기반으로, 공지된 컬러 공간으로의 각각의 카메라의 컬러 매핑을 생성하는 것이다. 예를 들어, 컬러 마커(1721, 1722 및 1723)는 상점에 배치될 수 있고; 예를 들어, 각각의 마커는 표준 컬러 정사각 격자(grid of standard color square)를 가질 수 있다. 하나 이상의 실시예에서 컬러 마커는 또한 외부 파라미터의 보정을 위해 사용될 수 있고; 예를 들어, 이는 도 17에서 도시된 바와 같이 공지된 위치에 배치될 수 있다. 하나 이상의 실시예에서, 상점에 있는 물품은, 예를 들어, 이것이 공지된 컬러인 경우 컬러 보정을 위해 사용될 수 있다.
[00178] 특정 카메라에서 관찰된 마커(1721, 1722, 1723)의 컬러를 기반으로, 카메라의 관찰된 컬러를 표준 컬러 공간으로 변환하기 위한 매핑이 도출될 수 있다. 이 매핑은 선형 또는 비선형일 수 있다. 매핑은, 예를 들어, 회귀 또는 임의의 원하는 기능적 근사 방법론을 사용하여 도출될 수 있다.
[00179] 표준 컬러 공간으로 컬러 보정된 카메라에서도, 상점에 있는 임의의 물체의 관찰된 컬러는 상점에 있는 물체의 위치에서의 조명을 따른다. 예를 들어, 상점(1702)에서, 라이트(light)(1731) 근처 또는 창(1732) 근처의 물체는 상점의 다른 위치에 있는 물체보다 더 밝게 보일 수 있다. 컬러에 대한 조명 변화의 효과를 정정하기 위해, 하나 이상의 실시예는 상점에 걸쳐 휘도 또는 다른 조명 특징의 맵을 생성 및/또는 사용할 수 있다. 이 휘도 맵은 카메라 또는 광 센서로부터의 조명 세기의 관찰, 상점 조명의 모델 또는 이들의 조합에서 기반하여 생성될 수 있다. 도 17의 예에서, 예시적인 휘도 맵(1741)은 카메라 보정 동안 또는 그 이전에 생성될 수 있으며, 카메라 컬러를 표준 컬러 공간에 매핑하는 데 사용될 수 있다. 조명 조건은 하루 중 서로 다른 시간에 변경될 수 있으므로, 하나 이상의 실시예는 상이한 시간들 또는 시간 기간 동안 상이한 휘도 맵을 생성할 수 있다. 예를 들어, 휘도 맵(1742)은 창(1732)으로부터의 광이 감소하지만 상점 라이트(1731)가 계속 동작할 때 야간 동작을 위해 사용될 수 있다.
[00180] 하나 이상의 실시예에서, 필터는 추적 및 검출을 개선하기 위해 광원에 또는 카메라에, 또는 이 모두에 추가될 수 있다. 예를 들어, 포인트 라이트(point light)는 반짝이는 제품으로 인해 카메라 이미지에 눈부심을 유발할 수 있다. 라이트에 있는 편광 필터는 이 눈부심을 감소시킬 수 있는데, 이는 편광된 광이 눈부심을 덜 생성하기 때문이다. 광원에 있는 편광 필터는 카메라에 있는 편광판(polarizer)과 결합되어 눈부심을 더욱 줄일 수 있다.
[00181] 조명 조건에서의 변화를 감안하기 위해 서로 다른 시간에 상이한 휘도 맵을 사용하는 것에 추가하여 또는 이 대신에, 하나 이상의 실시예는 카메라 컬러 맵에 대한 조명 조건 변화의 영향을 감안하기 위해 필요에 따라 카메라를 재보정할 수 있다. 예를 들어, 타이머(1751)는 카메라 보정 절차(1710)를 트리거하여, 예를 들어, 카메라 컬러가 하루 중 서로 다른 시간에 재보정되게 할 수 있다. 대안적으로 또는 추가로, 상점(1702)에 위치된 광 센서(1752)는, 센서 또는 센서들이 조명 조건이 변경되었거나 변경되었을 수 있음을 검출할 때 카메라 보정 절차(1710)를 트리거할 수 있다. 시스템의 실시예는 또한, 예를 들어, 창(1732)이 상점의 일부에 햇빛을 허용하는 경우, 이미지의 특정 구역에 보정을 서브맵핑할 수 있다. 즉, 보정 데이터는 또한 훨씬 더 정확한 결과를 제공하기 위해 구역 및 시간에 기반할 수 있다.
[00182] 하나 이상의 실시예에서, 카메라 배치 최적화가 시스템에서 활용될 수 있다. 예를 들어, 2D 카메라 시나리오에서, 활용될 수 있는 하나의 방법은 카메라 포지션에 비용 함수를 할당하여 특정 상점의 카메라 배치 및 수를 최적화하는 것이다. 일 실시예에서, 카메라로부터의 하나의 이미지에서만 발견되는 임의의 물품에 1000의 페널티를 할당하는 것은 하나의 카메라에 의해서만 볼 수 있는 임의의 물품에 대해 큰 페널티를 초래한다. 카메라 수에 1의 페널티를 할당하는 것은, 상점에 요구되는 추가 카메라에 대해 약간의 페널티를 초래한다. 적어도 2개의 이미지 또는 각각의 물품의 입체 이미지를 생성하지 않는 카메라 배치에 페널티를 줌으로써, 3D 위치를 획득할 수 없는 물품의 수에 과중한 페널티가 부과되어, 최종 카메라 배치가 사전 정의된 비용에 속하게 된다. 따라서, 하나 이상의 실시예는 한 세트의 카메라 배치에 수렴하며, 여기서는, 충분한 카메라가 주어지면, 모든 물품에 대한 2개의 서로 다른 관점이 제거된다. 카메라의 수에 비용 함수를 배치함으로써, 그에 따라, 이 실시예에 따른 반복적 해법은 상점에 대한 최소 수의 카메라로 적어도 하나의 해법을 찾는 데 사용된다. 도 18의 상단 행에서 볼 수 있듯이, 상점 왼쪽에 있는 물품들에는 단지 하나의 카메라가 있고, 가운데 카메라가 이들을 향하고 있다. 따라서, 오른쪽 상단 테이블에 있는 물품에는 각각 1000의 패널티를 받는다. 이 반복에는 3개의 카메라가 있으므로, 총 비용은 2003이다. 다음 반복에서, 도면의 중간 행에 도시된 바와 같이, 카메라가 추가된다. 이제 모든 물품을 적어도 2개의 카메라로 볼 수 있으므로, 물품에 대한 비용은 0으로 떨어지면서, 다른 카메라가 추가되어 총 비용이 4가 된다. 이 반복에 대해 도시된 것처럼 최하부 행에서, 예를 들어, 중간 행 테이블의 중간 열에 도시된 것처럼 3개 이상의 카메라가 특정 물품을 본다는 것(4개 물품에 대해 3개의 뷰를 도시)을 결정함으로써, 카메라가 제거된다. 최하부 행 상점에서 맨 왼쪽 카메라를 제거한 후, 비용이 1 감소하므로, 총 비용은 3이다. 시스템의 실시예에서 임의의 수의 카메라 포지션, 배향 및 유형이 활용될 수 있다. 시스템의 하나 이상의 실시예는, 예를 들어, 앞서 설명된 카메라 보정에 따라, 상점 내 기존 보안 카메라를 사용하고 그리고 필요한 경우 이 카메라를 이동하거나 또는 상점 내 기존 비디오 인프라구조를 활용하기 위해 상점의 카메라 수를 늘림으로써, 카메라의 수를 최적화할 수 있다. 예를 들어, 초기 시나리오를 설정하기 위한 동일한 간격 및 미리정의된 각도와 같이, 카메라를 배치하고 배향하는 임의의 다른 방법이 활용될 수 있다.
[00183] 하나 이상의 실시예에서, 사람 및 환경과 사람의 상호작용을 추적하기 위해 위에서 설명된 기법들 중 하나 이상이 적용되어, 시간 및 공간 상 한 지점에서 사람에 의해 획득된 승인을 시간 및 공간 상 다른 지점으로 연장시킬 수 있다. 예를 들어, 승인은 시간 상 초기 지점에서 그리고 구역 내 체크포인트 또는 구역에 대한 입구에서 사람에 의해 획득될 수 있다. 승인은 사람에게 하나 이상의 행동을 수행하도록, 예를 들어, 잠긴 건물과 같은 보안된 환경에 입장하거나 또는 그 사람과 관련된 계정에 구매를 청구하도록 승인할 수 있다. 그런 다음, 시스템은 이 사람을 후속 시점에 제2 위치로 추적할 수 있고 이전에 획득된 승인을 제2 위치 및 후속 시점에 있는 해당 사람과 연관시킬 수 있다. 시간과 공간에 걸친 이러한 승인의 연장은 사람과 환경 간의 상호작용을 단순화할 수 있다. 예를 들어, 사람은 구매를 수행하기 위한 승인을 획득하기 위해 입구에서 크리덴셜(예를 들어, 지불 카드)을 제시하거나 크리덴셜을 제시하는 쪽을 선택할 필요가 있을 수 있고; 나중에 시스템이 그 사람을 추적할 수 있기 때문에, 이전에 획득된 승인을 사용하기 위해 이 크리덴셜을 다시 제시할 필요가 없을 수 있다. 이러한 승인의 연장은, 예를 들어, 사람이 상점 내에서 어떤 물품과 상호작용하는지 또는 어떤 물품을 가져가는지 결정하기 위해 위에서 설명된 기법과 협력하여 자동화된 상점에서 유용할 수 있고; 예를 들어, 사람은 상점 입구에서 또는 상점과 관련된 지불 키오스크 또는 카드 판독기에서 카드를 제시한 다음, 원하는 대로 간단히 물품을 가져가서, 임의의 명시적인 체크아웃을 수행하지 않고, 상점을 나갈 때 자동으로 요금이 청구될 수 있다.
[00184] 도 19는 카메라 이미지의 분석을 통한 추적을 사용하여 승인 연장을 가능하게 하는 예시적인 실시예를 도시한다. 이 도면과 여러 후속 도면은 주유소 예를 사용하는 승인 연장의 하나 이상의 양상을 예시한다. 이 예는 예시적이고; 하나 이상의 실시예는 임의의 유형의 부지 또는 구역에서 승인 연장을 가능하게 할 수 있다. 예를 들어, 제한 없이, 승인 연장은, 건물, 멀티-건물 복합단지, 상점, 식당, 호텔, 학교, 캠퍼스, 쇼핑몰, 주차장, 실내 또는 실외 마켓, 주거용 건물 또는 복합단지, 방, 경기장, 들판, 경기장, 레크리에이션 구역, 공원, 놀이터, 박물관 또는 갤러리의 전부 또는 임의의 일부에 적용 또는 통합될 수 있다. 이는 하나의 장소 및 시간에서 획득된 승인이 다른 장소 또는 다른 시간으로 연장될 수 있는 임의의 환경에 적용되거나 통합될 수 있다. 이는 임의의 유형의 승인을 연장시키는 데 적용될 수 있다.
[00185] 도 19에 도시된 예에서, 사람(1901)은 주유소에 도착하여 주유기(1902)로 간다. 가스를 획득하기 위해 (또는 잠재적으로 가스를 획득하지 않고 다른 행동을 승인하기 위해), 사람(1901)은, 예를 들어, 신용 카드 또는 직불 카드와 같은 크리덴셜(1904)을 주유기(1902)에 또는 그 근처의 크리덴셜 판독기(1905)에 제시한다. 크리덴셜 판독기(1905)는, 사용자(1901)가 주유기(1902)로부터 가스를 펌핑할 수 있게 허용하는 승인(1907)을 획득하기 위해 메시지(1906)를 은행 또는 정보 센터(212)로 송신한다.
[00186] 하나 이상의 실시예에서, 사람은 승인을 획득하기 위해 임의의 유형의 크리덴셜을 임의의 유형의 크리덴셜 판독기에게 제시할 수 있다. 예를 들어, 제한 없이, 크리덴셜은 신용 카드, 직불 카드, 은행 카드, RFID 태그, 모바일 결제 디바이스, 모바일 월렛 디바이스, 모바일 폰, 스마트 폰, 스마트 시계, 스마트 안경 또는 고글, 전자 열쇠, 신분 카드, 운전 면허증, 여권, 패스워드, PIN, 코드, 전화 번호 또는 생체 인식 식별자일 수 있다. 크리덴셜은, 모바일 폰, 스마트 폰, 스마트 시계, 스마트 안경, 전자 열쇠, 스마트 고글, 태블릿 또는 컴퓨터와 같이, 사람이 휴대하는 임의의 디바이스에 통합되거나 부착될 수 있다. 크리덴셜은 사람이 착용하거나 사람이 착용하는 의류 또는 액세서리에 통합될 수 있다. 크리덴셜은 수동 또는 활성일 수 있다. 크리덴셜은 지불 메커니즘 또는 계정에 링크될 수도 또는 링크되지 않을 수도 있다. 하나 이상의 실시예에서, 크리덴셜은 패스워드, PIN, 코드, 전화 번호, 또는 사람이 크리덴셜 판독기에 타이핑하거나 말한 다른 데이터일 수 있다. 크리덴셜 판독기는 제시된 크리덴셜을 읽거나 수락할 수 있는 임의의 디바이스 또는 디바이스들의 조합일 수 있다. 크리덴셜 판독기는 은행(212)과 같은 원격 인증 시스템에 링크될 수도 또는 링크되지 않을 수도 있다. 하나 이상의 실시예에서, 크리덴셜 판독기는 다른 시스템과 통신하지 않고, 제시된 크리덴셜에 기반하여 사용자를 인증하기 위한 로컬 정보를 가질 수 있다. 크리덴셜 판독기는 임의의 유형의 기술을 사용하여 크리덴셜을 읽거나, 인식하거나, 수락하거나, 증명하거나 또는 이와 다르게 프로세싱할 수 있다. 예를 들어, 제한 없이, 크리덴셜 판독기는 마그네틱 스트라이프 판독기, 칩 카드 판독기, RFID 태그 판독기, 광학 판독기 또는 스캐너, 지문 스캐너와 같은 생체 인식 판독기, 근거리 통신 수신기, Bluetooth 수신기, Wi-Fi 수신기, 타이핑 입력용 키보드 또는 터치 스크린, 오디오 입력용 마이크를 가질 수 있다. 크리덴셜 판독기는 신호를 수신하거나, 신호를 송신하거나, 이 둘 다를 수행할 수 있다.
[00187] 하나 이상의 실시예에서, 사람에 의해 획득된 승인은 그 사람이 수행하도록 승인된 임의의 행동 또는 행동들과 연관될 수 있다. 이러한 행동은, 이로 제한되는 것은 아니지만, 구매와 같은 금융 거래를 포함할 수 있다. 승인될 수 있는 행동은, 예를 들어, 제한 없이, 건물, 방 또는 구역으로의 입장 또는 이로부터의 퇴장; 물품, 제품 또는 서비스의 구매 또는 대여; 물품, 제품 또는 서비스의 사용; 또는 제어된 정보 또는 재료에 대한 액세스를 포함할 수 있다.
[00188] 하나 이상의 실시예에서, 크리덴셜 판독기는 주유기에 또는 임의의 다른 디바이스에 통합될 필요가 없다. 이는, 독립실행형이거나, 임의의 디바이스에 부착 또는 통합되거나, 또는 구역에 걸쳐 분산될 수 있다. 크리덴셜 판독기는, 예를 들어, 제한 없이, 입구, 출구, 체크-인 지점, 체크포인트, 검문소, 게이트, 문 또는 다른 장벽을 포함하여, 구역 내 임의의 위치에 위치될 수 있다. 하나 이상의 실시예에서, 여러 크리덴셜 판독기가 한 구역에 위치될 수 있고; 다수의 크리덴셜 판독기는 서로 다른 사람에 의해 동시에 사용될 수 있다.
[00189] 도 19에 예시된 실시예는, 사람이 크리덴셜(1904)을 다시 제시하도록 요구함 없이, 사람(1901)에 의해 획득되는 가스를 펌핑하기 위한 승인을 이 사람에 의한 하나 이상의 다른 행동을 인증하도록 연장한다. 이 예시적인 예에서, 주유소는 고객이 제품을 구매할 수 있는 연관된 편의점(1903)을 갖는다. 승인 연장 실시예는 편의점이 예를 들어, 직원없이 자동화되는 것을 가능하게 할 수 있다. 상점(1903)이 무인상태일 수 있기 때문에, 상점으로의 문(1908)은, 예를 들어, 제어가능한 잠금장치(1909)로 잠길 수 있으며, 이에 따라 승인되지 않은 사람이 상점으로 들어가는 것을 방지할 수 있다. 아래에서 설명되는 실시예는, 주유기(1902)에서 크리덴셜(1904)을 제시함으로써 획득된 사람(1901)의 승인을 연장하여, 사람(1901)이 잠긴 문(1908)을 통해 상점(1903)에 입장할 수 있게 한다.
[00190] 하나 이상의 실시예는, 이로 제한되는 것은 아니지만, 도 19의 편의점(1903)과 같은 상점을 포함하는, 임의의 종류의 보안된 환경에 사용자가 입장하게 허용하기 위해 승인 연장을 가능하게 할 수 있다. 보안된 환경은, 예를 들어, 제한 없이, 문, 게이트, 펜스, 창살 또는 창과 같은 장벽으로 보안되는 입구를 가질 수 있다. 장벽은 진입을 막는 물리적 디바이스가 아닐 수 있고; 이는, 예를 들어, 경보를 울리지 않고 보안된 환경에 입장하려면 비활성화되어야 하는 경보기일 수 있다. 하나 이상의 실시예에서, 장벽은 시스템에 의해 제어될 수 있으므로, 예를 들어, 진입을 허용(또는 금지)하기 위해 명령이 장벽에 전송될 수 있다. 예를 들어, 제한 없이, 문 또는 게이트에 대한 전자식 제어 잠금장치(electronically controlled lock)가 제어가능한 진입에 대한 장벽을 제공할 수 있다.
[00191] 도 19에서, 승인 연장은 승인 지점에서 편의점(1903)의 진입 지점까지 사람(1901)을 추적함으로써 가능해질 수 있다. 추적은 구역 내 하나 이상의 카메라를 사용하여 수행될 수 있다. 도 19의 주유소 예에서, 카메라(1911, 1912 및 1913)는 주유소의 구역에 또는 그 주위에 설치된다. 카메라로부터의 이미지는 프로세서(130)에 송신되며, 프로세서(130)는 이러한 이미지를 프로세싱하여, 사람을 인식하고 사람이 주유소 영역을 두루 이동할 때 일정 시간 기간 동안 그를 추적한다. 프로세서(130)는 또한 3D 모델(1914)에 액세스하여 이를 사용할 수 있다. 3D 모델(1914)은, 예를 들어, 부지 내 하나 이상의 카메라의 위치 및 배향을 설명할 수 있고; 이 데이터는 예를 들어, 외부 카메라 보정으로부터 획득될 수 있다. 하나 이상의 실시예에서, 3D 모델(1914)은 또한, 도 19의 주유소 부지 내의 주유기 및 편의점과 같이, 부지 내 하나 이상의 물체 또는 존의 위치를 설명할 수 있다. 3D 모델(1914)은 전체 부지의 완전한 모델일 필요는 없고; 예를 들어, 최소 모델은 애플리케이션과 관련된 부지의 위치 또는 영역에 있는 사람의 추적을 지원할 수 있는 하나 이상의 카메라에 대한 충분한 정보만을 포함할 수 있다.
[00192] 사람과 연관된 궤적의 인식, 추적 및 계산은, 예를 들어, 도 1 내지 도 10과 관련하여 위에서 설명되고 도 15에 예시된 바와 같이 수행될 수 있다. 프로세서(130)는, 예를 들어, 사람이 주유소의 구역에 입장하거나 하나 이상의 카메라에 의해 처음 관찰되는 시간(1922)의 시점(1921)에서 시작되는, 사람(1901)에 대한 궤적(1920)을 계산할 수 있다. 사람이 구역을 두루 이동함에 따라 궤적은 지속적으로 업데이트될 수 있다. 시작 지점(1921)은 사람이 크리덴셜(1904)을 제시하는 지점(1923)과 일치할 수도 또는 일치하지 않을 수도 있다. 사람의 추적을 시작할 때, 시스템은, 예를 들어, 태그(1931)를, 사람(1901)과 그리고 이 사람이 구역 두루 추적될 때 이 사람에 대해 일정 시간 기간에 걸쳐 계산된 궤적(1920)과 연관시킬 수 있다. 이 태그(1931)는 (예를 들어, 도 5와 관련하여 위에서 설명된 바와 같이) 사람의 구별되는 특징과 연관될 수 있다. 하나 이상의 실시예에서, 이는 프로세서(130)에 의해 사용되는 내부 식별자인 익명 태그일 수 있다.
[00193] 사람(1901)이 구역을 두루 이동할 때 업데이트될 수 있는, 프로세서(130)에 의해 계산된 궤적(1920)이 위치를 시간과 연관시킬 수 있다. 예를 들어, 사람(1901)은 시간(1922)에 위치(1921)에 있다. 하나 이상의 실시예에서, 위치 및 시간은 공간 및 시간 상 특정 지점 이외의 범위일 수 있다. 예를 들어, 이러한 범위는 측정의 불확실성이나 제한, 또는 이산 샘플링의 효과를 반영할 수 있다. 예를 들어, 카메라가 매 초마다 이미지를 캡처하는 경우, 하나의 카메라 이미지로부터 획득된 위치와 연관된 시간은 폭이 2 초인 시간 범위일 수 있다. 새로운 지점으로 궤적의 샘플링 및 연장은 또한, 고정된 주파수에서의 샘플링 대신 또는 이에 추가로, 존에 입장하는 사람 또는 센서를 트리거하는 것과 같은 이벤트에 대한 응답으로 발생할 수 있다. 위치에 대한 범위는 또한, 사람이 단일 지점이 아닌, 공간 내 볼륨을 차지한다는 것을 반영할 수 있다. 이 볼륨은, 예를 들어, 도 6a 내지 도 7b와 관련하여 위에서 설명된 영향 볼륨의 3D 필드이거나 이와 관련될 수 있다.
[00194] 프로세서(130)는, 크리덴셜 판독기(1905)가 위치된, 시간(1924)에서의 위치(1923)로 사람(1901)을 추적한다. 하나 이상의 실시예에서, 위치(1923)는 추적이 시작되는 위치(1921)와 동일할 수 있지만; 하나 이상의 실시예에서, 그 사람이 구역에 입장할 때 그 구역에서 추적될 수 있고 상점에 입장할 때나 퇴장할 때와 같이, 다른 시간에 크리덴셜을 제공할 수 있다. 하나 이상의 실시예에서, 다수의 크리덴셜 판독기가 존재할 수 있고; 예를 들어, 도 19의 주유소는 고객이 크리덴셜을 입력할 수 있는 여러 개의 페이-앳-더 펌프 스테이션(pay-at-the-pump station)이 있을 수 있다. 카메라 이미지의 분석을 사용하여, 아래에서 설명되는 바와 같이, 프로세서(130)는 사람이 크리덴셜을 입력하기 위해 사용하는 크리덴셜 판독기를 결정할 수 있으며, 이는 프로세서가 승인을 사람과 연관시키게 허용한다.
[00195] 크리덴셜(1904)을 크리덴셜 판독기(1905)에 입력한 결과, 승인(1907)이 주유기(1902)에 제공된다. 이 승인 또는 관련 데이터는 또한 프로세서(130)에 송신될 수 있다. 승인은, 예를 들어, 주유기 또는 크리덴셜 판독기로부터 메시지(1910)로서, 또는 은행 또는 결제 프로세서(또는 다른 승인 서비스)(212)로부터 직접 전송될 수 있다. 프로세서(130)는, 승인 메시지가 수신된 시간에 또는 크리덴셜이 크리덴셜 판독기(1905)에 제시된 시간에 또는 이 시간들 근처에서, 사람의 궤적(1920)이 크리덴셜 판독기(1904)의 위치에 또는 그 근처에 있다는 것을 결정함으로써, 이 승인을 사람(1901)과 연관시킬 수 있다. 구역에 다수의 크리덴셜 판독기가 있는 실시예에서, 프로세서(130)는, 승인과 연관된 크리덴셜 판독기를 결정하고 그리고 그 승인의 시간 및 그 크리덴셜 판독기의 위치를 한 명 이상의 사람의 궤적과 연관시켜 그 시간에 사람이 크리덴셜 판독기에 또는 그 근처에 있는지 결정함으로써, 특정 사람과 특정 승인을 연관시킬 수 있다. 일부 상황에서, 사람(1901)은 승인이 수신될 때까지 크리덴셜 판독기(1905)에서 기다릴 수 있고; 따라서, 프로세서(130)는 어느 사람이 승인과 연관되는지를 결정하기 위해 승인이 수신된 시간 또는 크리덴셜이 제시된 시간을 사용할 수 있다.
[00196] 사람(1901)이 시간(1924)에 또는 그 근처에서 위치(1923)에 또는 그 근처에 있다고 결정하고, 위치(1923)가 크리덴셜 판독기(1905)의 위치(또는 크리덴셜 판독기 근처의 존 내에 있음)임을 결정하고, 그리고 승인(1910)이 크리덴셜 판독기(1905)와 연관되어 있고 시간(1924)에 또는 그 근처에서 수신됨 (또는 시간(1924)에 또는 그 근처에서 크리덴셜의 제시와 연관됨)을 결정함으로써, 프로세서(130)는 시간(1924) 이후 사람(1901)의 궤적(1920)과 승인을 연관시킬 수 있다. 이 연관(1932)은, 예를 들어, 승인 정보를 포함하는 궤적에 연장된 태그(1933)를 추가할 수 있고 승인과 연관된 계정 또는 크리덴셜 정보를 포함할 수 있다. 프로세서(130)는 또한, 특정 허용된 행동을 승인과 연관시킬 수 있고; 이러한 허용된 행동은 애플리케이션에 특정될 수 있으며, 또한 각각의 사람 또는 각각의 크리덴셜에 대해 획득된 특정 승인에 따라 특정될 수 있다.
[00197] 그런 다음, 프로세서(130)는 시간(1926)에서 위치(1925)에 대한 사람(1901)의 궤적(1920)을 계속 추적한다. 이 위치(1925)는 잠금장치(1909)에 의해 잠겨 있는 편의점(1903)에 대한 입구(1908)에서와 같다. 이 예에서 주유기에서 획득된 승인은 또한 상점으로의 진입을 허용하기 때문에, 프로세서(130)는 명령(1934)을 제어가능한 잠금장치(1909)에 송신하여, 상점으로의 진입을 허용하기 위해 문(1908)을 잠금해제한다. (잠금장치(1909)는 상징적으로 자물쇠로서 도시되고; 실제로, 이는 진입을 허용하거나 거부하도록 장벽을 작동시키는 전자 컨트롤과 함께, 문(1908) 또는 임의의 장벽에 통합될 수 있다.) 장벽을 잠금해제하라는 명령(1934)은 사람(1901)이 문에 도달하는 시간(1926)에 또는 그 근처에서 자동으로 발행되는 데, 이는 카메라 이미지가 사람을 인식하여, 사람이 문에 또는 위치(1925)에 있다는 것을 결정하고 그리고 이 사람을, 이전 시간(1924)에 크리덴셜(1904)을 제시한 결과로서 이전에 획득된 승인과 연관시키기 때문이다.
[00198] 하나 이상의 실시예는 후속 시점에서 임의의 유형의 보안 환경으로의 진입을 허용하기 위해 하나의 시점에서 획득된 승인을 연장시킬 수 있다. 보안 환경은, 예를 들어, 도 19에서와 같은 상점이나 건물, 또는 도 20에 예시된 바와 같은 케이스 또는 유사한 밀폐된 컨테이너일 수 있다. 도 20은 도 19에 도시된 예와 유사한 주유소 예를 예시하지만; 도 20에서 제품은 편의점과는 대조적으로 (또는 추가로) 밀폐된 및 잠긴 케이스에서 이용가능하다. 예를 들어, 주유소는 주유기 옆 또는 그 근처에 판매용 제품이 있는 케이스를 가질 수 있으며, 주유기에서 획득된 승인을 연장시킴으로써 케이스를 열도록 승인된다. 도 20의 예에서, 사람(1901)은, 도 19와 관련하여 설명된 바와 같이, 위치(1923) 및 시간(1924)에서 주유기(1902)에 크리덴셜을 삽입한다. 프로세서(130)는 결과적인 승인을 사람과 그리고 시간(1924) 이후에 그 사람의 궤적(2000)과 연관시킨다. 그런 다음, 사람(1901)은 판매용 제품을 포함하는 케이스(2001)로 걸어간다. 프로세서는, 카메라(1911 및 1913a)로부터의 이미지를 분석함으로써, 시간(2003)에 위치(2002)에 대한 사람의 경로를 추적한다. 이는, 그런 다음, 케이스(2001)의 문을 잠그는 제어가능한 잠금장치(2005)를 잠금해제하도록 명령(2004)을 발행하고, 이로써 사람이 제품을 가져갈 수 있도록 문이 열린다.
[00199] 하나 이상의 실시예에서, 사람의 궤적은 임의의 원하는 시간 간격으로 추적되고 업데이트될 수 있다. 예를 들어, 구역 내 카메라의 배치 및 이용가능성에 따라, 사람은 카메라가 사람을 관찰하지 않는 하나 이상의 위치를 통과할 수 있고; 따라서, 궤적이 이러한 "사각 지대"에서 업데이트되지 않을 수 있다. 그러나, 예를 들어, 추적되고 있는 사람의 구별되는 특징이 하나 이상의 초기 관찰 중에 생성될 수 있기 때문에, 사람이 이러한 사각 지대를 떠난 후에 그 사람의 추적을 계속하는 것(pick up)이 가능할 수 있다. 예를 들어, 도 20에서, 카메라(1911)는 주유기에서 위치(1924)의 양호한 뷰를 제공할 수 있고, 카메라(1913a)는 케이스(2001)에서 위치(2002)의 양호한 뷰를 제공할 수 있지만, 이러한 2개의 지점 사이에는 어떠한 뷰도 없거나 또는 제한된 뷰가 있을 수 있다. 그럼에도 불구하고, 프로세서(130)는, 시간(2003)에서 카메라(1913a)에 의해 뷰잉되는 구별되는 특징이 시간(1924)에서 카메라(1911)에 의해 뷰잉되는 것과 매칭하기 때문에, 사람(1901)이 시간(2003)에서 위치(2002)에 있는 사람이고 따라서 케이스(2001)를 열도록 승인되었다는 것을 인식할 수 있다.
[00200] 도 21은 도 20의 예를 계속한다. 케이스(2001)는 사람(1901)이 위치(2002)에 있을 때 열린다. 그런 다음, 그 사람은 케이스로 손을 뻗어 물품(2105)을 제거한다. 프로세서(130)는 케이스로부터 물품(2105)의 제거를 검출하는 카메라 또는 다른 센서로부터의 데이터를 분석한다. 도 21의 예에서, 이러한 센서는 카메라(2101), 카메라(2102) 및 무게 센서(2103)를 포함한다. 카메라(2101 및 2102)는, 예를 들어, 케이스(2001) 내부에 설치될 수 있고 선반에서 물품의 제거를 관찰하도록 위치결정 및 배향될 수 있다. 프로세서(130)는, 사람(1901)이 예를 들어, 도 3 및 도 4와 관련하여 위에서 설명된 기법을 사용하여 특정 물품을 가져갔음을 결정할 수 있다. 추가로 또는 대안적으로 하나 이상의 다른 센서가 제품의 제거를 검출할 수 있다. 예를 들어, 물품이 제거된 경우를 검출하기 위해 각각의 물품 아래에 무게 센서가 배치되고, 무게 센서로부터의 데이터는 프로세서(130)에 송신될 수 있다. 사용자가 물품을 가져가는 것을 검출하거나 확인하기 위해 임의의 유형 또는 유형들의 센서가 사용될 수 있다. 임의의 유형의 센서를 사용한 제품 제거의 검출은, 제품을 가져간 것을 특정 사용자에게 결부시키기 위해 카메라를 사용하는 사람의 추적과 결합될 수 있다.
[00201] 도 21에 예시된 시나리오에서, 사람(1901)은 케이스(2001)로부터 제품(2105)을 제거한다. 프로세서(130)는 카메라(2102, 2101, 1913a) 및 센서(2103) 중 하나 이상으로부터의 데이터를 분석하여, 가져가진 제품을 결정하고 그 물품을 사람(1901)과 연관시킨다(예를 들어, 물품이 제거된 시간에 물품 근처에 위치되는 사람의 영향 볼륨의 3D 영향에 기반함). 승인 정보(1933)는 또한 물품이 가져가진 시간에 사람과 연관되기 때문에, 프로세서(130)는 사용자와 연관된 계정에 물품에 대해 청구하기 위해 메시지(2111)를 송신할 수 있다. 이러한 청구는 크리덴셜 판독기(1905)에게 크리덴셜(1904)을 사전에 제시함으로써 사람(1901)에 의해 사전-승인될 수 있다.
[00202] 도 22는 편의점에 입장하며 물품을 가져가는 사람을 예시하기 위해 도 19의 예를 연장한다. 이 예는, 사람이 보안 환경(도 21에서는 케이스, 도 22에서는 편의점) 내에서 물품을 가져오고 사전에 획득된 승인에 기반하여 물품에 대한 청구가 발행된다는 점에서, 도 21의 이전 예에 대해 일부 면들이 유사하다. 이 예는 또한 도 2에 예시된 예와 유사하며, 편의점(1903)에 입장하기 전에, 주유기(1902)에서 사람(1901)에 의해 승인이 획득된다는 점이 추가된다. 외부 카메라(1911, 1912 및 1913)는 입구(1908)에 대해 사람(1901)을 추적하고, 프로세서(130)는 사람(1901)이 상점에 입장할 수 있도록 잠금장치(1909)를 잠금해제한다. 그 후에, 카메라(202)와 같은 내부 카메라로부터의 이미지는 상점 내부의 사람을 추적하고, 프로세서는 이러한 이미지를 분석하여, 사람이 선반(102)에서 물품(111)을 가져간 것을 결정한다. 출구(201)에서, 메시지(203a)가 생성되어 물품에 대해 사람의 계정에 자동으로 청구되고; 메시지(213a)가 또한 어떤 물품 또는 물품들이 청구될 것인지를 나타내는 상점 내 디스플레이에(또는, 예를 들어, 사람의 모바일 폰 상에) 전송될 수 있다. 하나 이상의 실시예에서, 사람은 청구가 송신되기 전에 확인을 입력하거나 수정을 할 수 있다. 하나 이상의 실시예에서, 프로세서(130)는 또한, 출구 문을 잠금해제하기 위해 잠금해제 메시지(2201)를 송신할 수 있고; 출구에 있는 이 장벽은, 예를 들어, 상점에 있는 승인되지 않은 사람이 퇴장하기 전에 지불 메커니즘을 제공하도록 강제할 수 있다.
[00203] 도 22의 예의 변형에서, 하나 이상의 실시예에서, 크리덴셜은, 주유기(1902)와 같은 상이한 위치가 아니라, 상점으로의 입구(1908)에 있는 사람에 의해 제시될 수 있다. 예를 들어, 크리덴셜 판독기는 입구(1908) 내부 또는 그 근처에 위치될 수 있다. 대안으로, 상점으로의 입구가 잠금해제될 수 있고, 크리덴셜이 출구(201)에서 제시될 수 있다. 보다 일반적으로, 하나 이상의 실시예에서, 크리덴셜이 제시될 수 있고, 그리고 승인이 시간 및 공간 상 임의의 지점에서 획득된 다음, 상점 내에서 (또는 임의의 다른 구역에서) 사용되어, 하나 이상의 행동이 수행될 수 있고; 이러한 행동은, 이로 제한되는 것은 아니지만, 물품을 가져가는 것 그리고 물품이 승인된 계정으로 자동 요금청구되게 하는 것을 포함할 수 있다. 예를 들어, 진입 또는 퇴장 시, 제어가능한 장벽은 시스템에 통합될 수도 또는 통합되지 않을 수도 있다. 예를 들어, 상점 입구(1908) 및 출구(201)의 문 잠금장치는 하나 이상의 실시예에서 존재하지 않을 수 있다. 한 지점에서 획득된 승인은 제어가능한 장벽을 통해 보안 환경에 대한 진입만 승인할 수 있거나, 물품의 가져가기 및 청구를 승인할 수 있거나, 이 둘 다를 승인할 수 있다(도 22에 예시됨).
[00204] 도 23은 도 22에 예시된 시나리오에 대한 변형을 도시하며, 여기서 사람은 선반에서 물품을 제거하지만 상점을 떠나기 전에 이를 내려 놓는다. 도 22에서와 같이, 사람(1901)은 선반(102)에서 물품(111)을 가져간다. 상점을 퇴장하기 전에, 사람(1901)은 물품(111)을 다른 선반(2301)에 다시 놓는다. 도 3 및 도 4와 관련하여 위에서 설명된 것과 같은 기법을 사용하여, 프로세서(130)는, 예를 들어, 선반(102)을 관찰하는 카메라(이를테면, 카메라(202))로부터의 이미지를 분석함으로써, 초기에 가져가기 행동(2304)을 결정한다. 그 후, 프로세서(130)는, 예를 들어, 선반(2301)을 관찰하는 카메라(이를테면, 카메라(2302 및 2303))로부터의 이미지를 분석함으로써 놓기 행동(2305)을 결정한다. 따라서, 프로세서는, 사람(1901)이 상점을 떠날 때 그가 소유한 물품이 없다는 것을 결정하고, 그리고 그 사람에게 이를 확인하도록 메시지(213b)를 디스플레이에 송신한다.
[00205] 하나 이상의 실시예는 한 사람으로부터 다른 사람에게 승인을 연장하는 것을 가능하게 할 수 있다. 예를 들어, 승인은 전체 차량에 적용될 수 있으므로, 해당 차량의 모든 탑승자가 보안된 구역에 입장하는 것 또는 제품을 가져가 구매하는 것과 같은 행동을 수행하도록 승인할 수 있다. 도 24는 도 19의 예의 변형인 예를 예시한다. 사람(1901)은 주유기(1902)로 가서, 승인을 획득하기 위해 크리덴셜을 제시한다. (가능하게는, 다른 카메라와 협력하여) 카메라(1911)는 차량(2401)에서 내린 사람(1901)의 이미지를 캡처한다. 프로세서(130)는 이러한 이미지를 분석하고 사람(1901)을 차량(2401)과 연관시킨다. 프로세서는, 차량에서 내린, 차량의 임의의 다른 탑승자를 추적하기 위해 후속 이미지를 분석한다. 예를 들어, 두 번째 사람(2402)이 차량(2401)에서 내려, 주유소 내 카메라에 의해 검출된다. 프로세서는 사람에 대한 새로운 궤적(2403)을 생성하고 궤적에 새로운 태그(2404)를 할당한다. 사람(1901)의 승인이 획득된 후, 프로세서(130)는, 두 사람이 동일한 차량(2401)에서 내렸기 때문에, 이 승인을 사람(2402)(및 사람(1901))과 연관시킨다. 사람(2402)이 상점(1903)으로의 입구(1908)에서의 위치(1925)에 도달한 경우, 프로세서(130)는 상점에 대한 액세스를 허용하는 명령(2406)을 전송하는 데, 이는 사람(2402)이 사람(1901)에 의해 획득된 승인의 연장에 의해 입장하도록 승인되었기 때문이다.
[00206] 하나 이상의 실시예는, 승인이 연장되어야하는지 여부 및 연장되어야 하는 경우 어느 정도까지 연장되어야 하는지를 사람에게 질의할 수 있다. 예를 들어, 특정 위치에, 특정 행동에 대해, 특정 시간 기간 동안, 또는 선택된 다른 사람에게 승인을 선택적으로 연장시킬 수 있다. 도 25a, 도 25b 및 도 25c는, 사람(1901)이 승인을 위한 크리덴셀을 제시할 때, 주유기(1902)에 질의가 제공되는 예시적인 예를 도시한다. 도 25a에 도시된 초기 스크린은 사용자에게 크리덴셜을 제공하도록 요청한다. 도 25b에 도시된 다음 스크린은, 소속된 편의점으로서 구매에 대한 승인을 연장할지 여부를 사용자에게 묻고; 이 승인은, 예를 들어, 잠긴 문을 통해 상점에 액세스하도록 허용할 수 있고, 또한 사용자가 가져간 물품을 사용자의 계정으로 자동으로 청구할 수 있다. 도 25c의 다음 스크린은, 사용자에게, 그가 차량의 다른 탑승자에게 승인을 연장하길 원하는지를 묻는다(도 24 참조). 이러한 스크린 및 질의는 예시적이고; 하나 이상의 실시예는, 승인이 연장되는 방법 및 승인이 연장되어야 하는지 여부를 결정하기 위해, 임의의 유형의 질의를 제공하거나 임의의 유형의 사용자 입력(사전에 사용자로부터 또는 질의에 응답하여)을 수신할 수 있다. 예를 들어, 질의 및 응답은, 크리덴셜 판독기와 연관된 스크린 상의 것과 대조적으로 모바일 폰을 통해, 또는 임의의 다른 디바이스 또는 디바이스들을 통해 제공될 수 있다.
[00207] 이제 카메라 이미지의 분석을 사용하여 상점 또는 구역 두루 사람을 추적하는 추적 기술을 참조하면, 하나 이상의 실시예에서, 넓은 시야를 가진(이를테면, 180도) 어안 카메라와 같은 다수의 천장-장착 카메라를 사용하여 사람을 추적하는 것이 유리할 수도 또는 필요할 수도 있다. 이러한 카메라는 눈에 덜 거슬리고, 사람에게 눈에 덜 띄고, 탬퍼링에 대한 사람의 액세스가능성이 떨어지는 잠재적인 이점을 제공한다. 천장-장착 카메라는 또한 통상적으로, 사람이 고정물 뒤에서 또는 다른 사람 뒤에서 이동할 때 사람의 뷰를 잃을 수 있는 벽 카메라와는 달리, 구역을 두루 이동하는 사람의 폐색되지 않은 뷰를 제공한다. 천장-장착 어안 카메라는 또한 흔히 이미 설치되어 있으며, 이들은 널리 이용가능하다.
[00208] 하나 이상의 실시예는 아래에서 설명되는 기술을 사용하여 다수의 천장-장착 카메라를 사용하여 구역 두루 여러 사람을 동시에 추적할 수 있다. 이 기술은 임의의 큰 공간으로의 확장성이 크고, 센서 및 프로세싱의 측면에서 저렴하며, 구역 공간이 요구하는 바에 따라 다양한 레벨로 적응가능하다는 잠재적 이점을 제공한다. 또한, 이는 일부 심층-학습 검출 및 추적 접근방식만큼 많은 훈련이 필요하지 않다는 이점을 제공한다. 아래에서 설명되는 기술은 기하학적 투영 및 외형 추출(appearance extraction) 및 매칭 모두를 사용한다.
[00209] 도 26a 내지 도 26f는 예시적인 상점에 설치된 6개의 상이한 천장-장착 어안 카메라로부터의 뷰를 도시한다. 이미지는 실질적으로 동시에 캡처된다. 예를 들어, 카메라는 위에서 설명된 바와 같이 본질적으로 그리고 외부적으로 보정될 수 있다. 따라서, 추적 시스템은, 예를 들어, 상점의 3D 모델에서 설명되는 바와 같이, 카메라가 상점에 위치되고 배향되는 곳을 알고 있다. 보정은 또한, 상점 3D 공간의 지점으로부터 카메라 이미지의 픽셀로의 또는 그 반대로의 매핑을 제공한다.
[00210] 예를 들어, 어안 렌즈에 내재하는 왜곡으로 인해, 어안 카메라 이미지로부터의 직접적인 추적은 난제가 될 수 있다. 따라서, 하나 이상의 실시예에서, 시스템은 각각의 카메라 이미지로부터 공통 평면으로의 평평한 평면 투영을 생성할 수 있다. 예를 들어, 하나 이상의 실시예에서, 공통 평면은 부지의 바닥 또는 지면에서 1 미터 위 수평 평면일 수 있다. 이 평면은 상점에서 걷고 있는 대부분의 사람이 이 평면에서 교차한다는 장점이 있다. 도 27a, 도 27b 및 도 27c는, 도 26a 내지 도 26f로부터의 어안 이미지들 중 3개의 어안 이미지의 이 평면 상으로의 투영을 도시한다. 지면 1m 위 공통 평면에서의 각각의 지점은 동일한 픽셀 좌표에서 평면 투영(planar projection)의 픽셀에 대응한다. 따라서, 이미지(27A, 27B 및 27C)와 같은 공통 평면 상의 이미지 투영들 각각에서 동일한 픽셀 좌표의 픽셀은 모두 공간 상 동일한 3D 지점에 대응한다. 그러나, 카메라는 깊이를 캡처하지 않는 2차원 카메라일 수 있으므로, 3D 지점은 그와 카메라 사이의 광선을 따라 어디에서나 샘플링될 수 있다.
[00211] 구체적으로, 하나 이상의 실시예에서, 평면 투영(27A, 27B 및 27C)은 다음과 같이 생성될 수 있다. 각각의 어안 카메라는, 어안 이미지 내의 픽셀(이를테면, 예를 들어, 이미지(26A))과 카메라의 초점에서 시작하는 공간 내 광선 사이의 대응을 결정하도록 보정될 수 있다. 이미지(26A)와 같은 어안 이미지로부터 평면으로 또는 상점 또는 부지 내 임의의 다른 표면으로 투영하기 위해, 카메라 초점으로부터 표면의 해당 지점까지 광선이 형성될 수 있고, 그 광선과 연관된 어안 이미지의 픽셀의 컬러 또는 다른 특징이 표면 상의 그 지점에 할당될 수 있다.
[00212] 물체가 바닥 1 미터 위 높이에 있을 때, 모든 카메라는 그 개개의 투영 평면에서 거의 동일한 픽셀 세기를 볼 수 있으며, 그리고 1 미터 높이에 물체가 있으면 투영된 2D 이미지의 모든 패치가 상관될 것이다. 이는, 사람이 (바닥 위에 떠있지 않고) 거기에 위치될 때, 본원에서 설명되는 기법이 바닥에 평행한 평면 상에 투영된다는 규정으로, 당업계에 알려진 평면 스위프 스테레오(plane sweep stereo) 방법과 유사하다. 투영된 2D 이미지의 분석은, 상점 또는 부지의 걸어갈 수 있는 공간, 및 특정 카메라 이미지의 공간의 일부 부분의 폐색을 고려할 수 있다. 이 정보는 예를 들어, 상점 또는 부지의 3D 모델에서 획득될 수 있다.
[00213] 일부 상황에서, 바닥에서 1 미터 높이에 있는 사람에 대한 지점은 다른 사람 또는 다른 물체에 의해 하나 이상의 어안 카메라 뷰에서 폐색될 수 있다. 그러나, 천장-장착 어안 카메라의 사용은 이러한 위험을 최소화할 수 있는 데, 천장 뷰는 아래에 있는 사람에 대한 비교적 방해받지 않는 뷰를 제공하기 때문이다. 고정된 위치에 있는 상점 고정물 또는 피처의 경우, 각각의 카메라에 대해 폐색이 미리-계산될 수 있으며, 이러한 피처 또는 고정물에 의해 폐색되는 그 카메라에 대한 1 미터 평면 투영 이미지에 대한 픽셀은 무시될 수 있다. 상점에 있는 사람과 같이 움직이는 물체의 경우, 폐색은 미리-계산되지 않을 수 있지만; 하나 이상의 실시예는, 예를 들어, 이전 프레임에서 상점에 있는 각각의 사람의 포지션에 기반하여 이러한 폐색을 추정할 수 있다.
[00214] 움직이는 물체, 특히 사람을 추적하기 위해, 시스템의 하나 이상의 실시예는 배경 차감 또는 모션 필터 알고리즘을 통합하여, 평면 투영 이미지들 각각에 대한 전경에서 배경을 마스킹(mask out)할 수 있다. 도 28a, 도 28b 및 도 28c는 각각 투영된 평면 이미지(27A, 27B 및 27C)에 대한 전경 마스크를 도시한다. 흰색 픽셀은 움직이는 물체 또는 배경이 아닌 물체를 도시하고, 검은색 픽셀은 고정 물체 또는 배경 물체를 도시한다. (이 마스크는 조명 변경이나 카메라 잡음로 때문에 소란할 수 있다.) 그런 다음, 전경 마스크는 조합되어 마스크(28D)를 형성할 수 있다. 전경 마스크는, 예를 들어, 마스크 값을 추가함으로써 또는 도 28d에 표시된 바와 같이 이의 이진 AND-화(binary AND-ing)에 의해 결합될 수 있다. 결합된 마스크가 0이 아닌 도 28d의 위치는 사람이 지상 1m 위의 평면에 위치되는 것을 도시한다.
[00215] 하나 이상의 실시예에서, 각각의 카메라에 대한 개별 전경 마스크는 그가 결합되기 전에 필터링될 수 있다. 예를 들어, 가우시안 필터가 각각의 마스크에 적용될 수 있고, 필터링된 마스크는 함께 합쳐져, 결합된 마스크를 형성할 수 있다. 하나 이상의 실시예에서, 선택된 세기 이상의 값을 갖는 결합된 마스크에서 픽셀의 위치를 찾기 위해 임계화 단계(thresholding step)가 적용될 수 있다. 임계치는, 일부 카메라가 사람의 폐색된 뷰를 갖더라도, 그 사람과 연관된 픽셀을 식별하는 값으로 설정될 수 있다.
[00216] 결합된 마스크를 형성한 후, 시스템의 하나 이상의 실시예는, 예를 들어, 픽셀 공간 내 사람을 국부화(localize)시키기 위해 간단한 블랍(blob) 검출기를 사용할 수 있다. 블랍 검출기는 바닥 1 미터 위에 있는 사람의 예상 단면 크기에 대응하기에 너무 크거나 너무 작은 형상을 필터링할 수 있다. 선택된 수평 평면의 픽셀은 상점 내 3D 위치에 직접 대응하기 때문에, 이 프로세스는 상점 내 사람의 위치를 산출한다.
[00217] 시간이 지남에 따라 사람을 추적하는 것은, 하나의 시간 단계로부터 다음 시간 단계로의 검출을 매칭시킴으로써 수행될 수 있다. 하나 이상의 실시예에서 사용될 수 있는 예시적인 추적 프레임워크는 다음과 같다:
[00218] (1) 있는 경우, 새로운 검출을 기존 트랙과 매칭시킨다. 이는 아래에 설명되는 바와 같이 포지션 및 외형을 통해 수행될 수 있다.
[00219] (2) 매칭되는 검출로 기존 트랙을 업데이트한다. 매칭되는 검출의 포지션에 기반하여 트랙 포지션이 업데이트될 수 있다.
[00220] (3) 일정 시간 기간 동안 공간을 벗어나거나 비활성(예를 들어, 긍정 오류)인 트랙을 제거한다.
[00221] (4) 단계 (1)로부터의 매칭되지 않는 검출을 새로운 트랙에 추가한다. 시스템은 선택적으로, 공간 내 입구에서만 트랙을 추가하도록 선택할 수 있다.
[00222] 따라서, 위에서 요약된 추적 알고리즘은 추적된 모든 사람의 시간 상 포지션을 유지한다.
[00223] 예시적인 추적 프레임워크의 단계 (1)에서 앞서 설명된 바와 같이, 포지션 및 외형 중 하나 또는 둘 모두에 기반하여 검출을 트랙에 매칭하는 것이 수행될 수 있다. 예를 들어, 시간 상 다음 순간의 사람 검출이 단 하나의 트랙의 이전 포지션 근처에 있는 경우, 이 검출은 포지션만 기반으로 해당 트랙과 매칭될 수 있다. 그러나, 붐비는 상점과 같은 일부 상황에서, 포지션만 기반으로 검출을 트랙에 일치시키는 것은 더 어려울 수 있다. 이러한 상황에서, 사람의 외형은 매칭을 지원하는 데 사용될 수 있다.
[00224] 하나 이상의 실시예에서, 검출된 사람에 대한 외형은 그 사람에 대해 대응하는 픽셀을 갖는 한 세트의 이미지를 추출함으로써 생성될 수 있다. 하나 이상의 실시예에서 사용될 수 있는 이러한 이미지를 추출하는 접근방식은, 사람 주위의 표면을 생성하고(사람의 검출된 포지션을 사용하여 표면의 위치를 정의함) 그리고 각각의 카메라에 대해 표면 상의 3D 지점에 대한 픽셀 값을 샘플링하는 것이다. 예를 들어, 도 29a 내지 도 29f에 예시된 바와 같이, 사람의 위치 주위에 원통형 표면이 생성될 수 있다. 이 도면은 각각의 카메라에서 볼 수 있는 공통 원통(빨간색)를 도시한다. 원통(또는 다른 표면)의 표면 법선 벡터는 각각의 카메라에서 볼 수 있는 표면 지점만 샘플링하는 데 사용될 수 있다. 각각의 검출된 사람에 대해, 원통이 사람의 위치를 통해 중앙 수직 축을 중심으로 생성될 수 있고(예를 들어, 결합된 전경 마스크에서 그 사람과 관련된 블랍의 중심으로서 정의됨); 원통의 반경과 높이는 고정된 값으로 설정되거나, 또는 사람의 겉보기 크기와 외형에 적응될 수 있다.
[00225] 도 29a 내지 도 29f에 도시된 바와 같이, 원통형 표면은 각각의 카메라의 내재성/외재성에 기반하여 원래 카메라 뷰(도 26a 내지 도 26f) 각각에 국한된다. 원통 상의 지점은 각각의 이미지로부터 샘플링되어 도 30a 내지 도 30f에 도시된 투영을 형성한다. 원통의 표면 법선 벡터를 사용하여, 시스템은, 원통의 불투명한 표면이 있는 경우, 각각의 카메라에서 볼 수 있을 지점들만 샘플링할 수 있다. 폐색된 지점은 도 30a 내지 도 30f에서 암흑화된다. 이 접근방식의 장점은, 원통형 표면이 각각의 카메라로부터 대응하는 뷰를 제공하고, 각각의 픽셀의 가시성을 고려하여 뷰가 단일 뷰로 결합될 수 있다는 것이다. 각각의 카메라에 대한 각각의 원통형 이미지의 각각의 픽셀에 대한 가시성은, 카메라로부터 뷰잉할 때 원통의 전면 측과 후면 측 그리고 다른 사람 주위의 다른 원통에 의한 폐색을 모두 고려할 수 있다. 예를 들어, 그래픽 파이프라인과 유사한 방법을 사용하여 폐색이 계산될 수 있다. 카메라에 더 가까운 원통이 먼저 투영될 수 있으며, 그 원통에 매핑된 어안 이미지에 대한 픽셀이 제거되어(예를 들어, 검은색으로 설정) 이 픽셀은 다른 원통에 투영되지 않고; 이 프로세스는, 모든 원통이 어안 이미지로부터 투영된 픽셀을 수신할 때까지 반복된다. 각각의 카메라로부터의 원통형 투영은 예를 들어, 다음과 같이 결합될 수 있고; 뒷면에는 0 가중치가 할당될 수 있고, 가시적이고 폐색되지 않은 픽셀에는 1 가중치가 할당될 수 있고; 결합된 이미지는 원통 상의 모든 투영에 대한 가중 평균으로서 계산될 수 있다. 폐색된 원통형 투영을 결합하는 것은, 외형 추출을 용이하게 하는, 추적된 사람의 등록된 이미지를 생성한다. 원통형 투영(30A 내지 30F)에 대응하는 결합된 등록 이미지가 도 30g에 도시된다.
[00226] 이미지(30G)로부터의 외형 추출은, 예를 들어, 히스토그램에 의해 또는 임의의 다른 차원성 축소 방법에 의해 수행될 수 있다. 하위 차원의 벡터가 각각의 추적된 사람의 합성 이미지로부터 형성될 수 있고, 이 벡터는 형성된 합성 이미지를 다른 추적된 대상과 비교하는 데 사용될 수 있다. 예를 들어, 신경망은, 합성 원통형 이미지를 입력으로서 취하도록 그리고 동일한 사람으로부터의 다른 벡터와는 가깝고 다른 사람으로부터의 벡터와는 거리가 먼 하위 차원 벡터를 출력하도록 훈련될 수 있다. 사람 간을 구별하기 위해, 벡터-대-벡터 거리가 계산되고 임계치와 비교될 수 있고; 예를 들어, 0.0 내지 0.5의 거리는 동일한 사람을 나타낼 수 있고, 더 큰 거리는 상이한 사람을 나타낼 수 있다. 하나 이상의 실시예는, 각각의 트랙에 대한 외형 벡터의 분포를 형성하고 그리고 분포-대-분포 측정(이를테면, 예를 들어, KL-분산)을 사용하여 분포를 비교함으로써, 사람의 트랙을 비교할 수 있다. 분포 간의 판별이 계산되어 상점 또는 부지에 존재하는 사람에게 새로운 벡터가 라벨링될 수 있다.
[00227] 당업계에 공지된 외형 벡터 및 사람 매칭 접근방식에 비해 위에서 설명된 기법의 잠재적인 이점은, 공간에 있는 사람의 잠재적인 폐색이 많이 있는 붐비는 공간에서 더 강력할 수 있다는 것이다. 이 기법은, 가시성과 폐색을 고려하면서, 다수의 카메라로부터의 뷰들을 결합함으로써, 붐비는 공간에서도 유용한 외형 데이터를 생성하고, 이로써 강력한 추적을 제공하는 것이 성공될 수 있다. 이 기법은 배향된 표면(이 예에서는 원통형)을 기본 샘플링 유닛으로서 취급하고, 각각의 카메라로부터의 3D 지점의 가시성을 기반으로 투영을 생성한다. 해당 표면에 대한 법선이 카메라에서 멀어지면, 표면 상의 지점은 카메라에서 보이지 않는다(내적은 음수임). 또한, 붐비는 상점 공간에서, 물리적 규칙(가시성 및 폐색)에 기반하여 카메라를 샘플링하는 것 그리고 다수의 카메라로부터의 원통형 투영은, 다른 개인으로부터의 픽셀 없이 개인의 더 깨끗한 이미지를 제공하여, 사람을 식별하거나 분리하는 작업을 더 쉽게 만듭니다.
[00228] 도 31a 및 도 31b는 위에서 설명된 추적 기법을 통합하는 실시예로부터의 시간 상 2개의 지점에서의 스크린샷을 도시한다. 상점에 있는 세 사람이 검출되며, 이 세 사람은 이들이 이동할 때, 포지션 및 외형 둘 다를 사용하여 추적된다. 스크린샷은 어안 카메라들 중 하나의 어안 카메라로부터의 어안 뷰(3101 및 3111)를 도시하며, 각각의 사람의 위치는 사람의 이미지 위에 색이있는 점으로 표시된다. 이들은 또한, 도 27d와 관련하여 위에서 논의된 바와 같이, 지상 1 미터 위 평면에 대한 평면 투영을 위한 결합된 마스크(3102 및 3112)를 도시한다. 결합된 마스크(3102 및 3112)에서 가장 밝은 스폿은 검출 위치에 대응한다. 추적의 예시로서, 사람들 중 한 사람의 위치가, 도 31a에 대응하는 시간에서의 위치(3103)로부터 도 31b에 대응하는 후속 시간에서의 위치(3113)로 이동한다.
[00229] 본 발명의 실시예는, 더 복잡한 모델, 예를 들어, 머리에 대한 구형 모델(spherical model), 상부 팔 및 하부 팔 및/또는 상부 다리 및 하부 다리에 대한 추가 원통형 모델을 또한 이용할 수 있다. 이들 실시예는 사용자의 보다 상세한 차별화를 가능하게 하고, 그리고 사용자 및 그 구별되는 특징을 구별하기 위한 가속력, 저크(jerk) 또는 임의의 다른 이동 빈도를 포함하여, 보행 분석, 이동 속도, 포지션의 임의의 도함수와 조합하여 활용될 수 있다. 하나 이상의 실시예에서, 모델의 복잡성은 시간이 지남에 따라 또는 예를 들어, 주어진 구역에서의 사용자 수에 기반하여 필요에 따라 변경될 수 있다. 다른 실시예는 이용가능한 계산력(computing power)에 또는 예를 들어, 허용가능한 오류율을 포함하는 다른 인자에 기반하여 사용자마다 간단한 원통형 또는 다른 기하학적 형태를 활용할 수 있다.
[00230] 카메라 이미지에 대한 배경 차감을 수행하고 결과적인 마스크를 결합함으로써, 상점에 있는 사람을 식별하는 대안으로서, 하나 이상의 실시예는 사람을 식별하기 위해 한 세트의 카메라 이미지를 직접 프로세싱하는 기계 학습 시스템을 훈련하고 사용할 수 있다. 시스템에 대한 입력은 관련 구역 내 모든 카메라 또는 모든 카메라들로부터의 카메라 이미지일 수 있거나 또는 이를 포함할 수 있다. 출력은 사람이 해당 위치에 있을 가능성이 더 크다는 것을 나타내는 더 높은 값을 세기 맵일 수 있거나 또는 이를 포함할 수 있다. 기계 학습 시스템은, 예를 들어, 사람이 상점 영역을 돌아다니는 동안 카메라 이미지를 캡처하고 사람의 포지션을 수동으로 라벨링하여 훈련 데이터를 형성함으로써 훈련될 수 있다. 카메라 이미지는 입력으로서 직접 사용될 수 있거나 또는 하나 이상의 실시예에서, 처리될 수 있으며, 처리된 이미지가 입력으로서 사용될 수 있다. 예를 들어, 천장 어안 카메라로부터의 이미지는, 위에서 설명된 바와 같이, 바닥과 평행한 평면 상에 투영될 수 있으며, 투영된 이미지는 기계 학습 시스템에 대한 입력으로서 사용될 수 있다.
[00231] 도 32는 카메라 이미지로부터 상점 내 사람 포지션을 검출하는 기계 학습 시스템의 예를 예시한다. 이 예시적인 실시예는 상점(3200)에 3개의 카메라(3201, 3202, 3203)를 갖는다. 시간 상 한 지점에서, 이러한 3개의 카메라는 각각 이미지(3211, 3212, 3213)를 캡처한다. 이들 3개의 이미지는, 카메라 이미지의 수집물로부터 상점에 있을 가능성있는 사람 포지션의 세기 맵(3221)으로 매핑하도록 학습된(또는 학습중인) 기계 학습 시스템(3220)에 입력된다.
[00232] 도 32에 도시된 예에서, 시스템(3220)의 출력은 상점에 있는 사람의 가능성있는 수평 포지션이다. 수직 위치는 추적되지 않는다. 사람은 3D 공간을 차지하지만, 일반적으로 각각의 사람이 상점에서 어디에 있는지 결정하고 물품 모션을 사람과 연관시키는 데 요구되는 것은 수평 포지션뿐이다. 따라서, 세기 맵(3221)은, 상점의 바닥을 따라 xy 포지션을, 사람의 센트로이드 (또는 사람의 다른 지점 또는 지점들)가 해당 수평 위치에 있을 가능성이 얼마나 많은지를 나타내는 세기에 매핑한다. 예를 들어, 이 세기 맵은 그레이 스케일 이미지로서 표현될 수 있으며, 더 흰색 픽셀은 해당 위치에 사람이 있을 가능성이 더 높다는 것을 나타낸다.
[00233] 도 32에 예시된 사람 검출 시스템은, 사람의 신체 상의 랜드마크 또는 사람의 기하학적 구조의 다른 피처를 검출하려고 시도하는 시스템에 비해 상당히 단순화되었다. 사람의 위치는 단일 2D 지점으로만 표현되며, 이 지점 주위에 확률이 떨어지는 존이 있을 수 있다. 이러한 단순화는 탐지를 잠재적으로 더 효율적이고 강력하게 만든다. 탐지를 수행하는 프로세싱 능력은 이 방법을 사용하여 감소될 수 있고, 이로써, 시스템에 대한 설치 비용이 감소되고 실시간 사람 추적이 가능해진다.
[00234] 하나 이상의 실시예에서, 영향 볼륨의 3D 필드는 그 사람의 수평 포지션을 표현하는 2D 지점 주위의 사람에 대해 구성될 수 있다. 그 영향 볼륨의 필드는 사람이 상호작용하는 물품 저장 구역과 이러한 상호작용의 시간을 결정하는 데 사용될 수 있다. 예를 들어, 영향 볼륨의 필드는 도 10과 관련하여 위에서 설명된 바와 같이 사용될 수 있다. 도 32a는, 예를 들어, 도 32의 기계 학습 시스템(3220)에 의해 결정되는 바와 같이, 사람의 2D 위치로부터 영향 볼륨의 3D 필드를 생성하는 예를 도시한다. 이 예에서, 기계 학습 시스템 또는 다른 시스템은 2D 위치 데이터(3221d)를 생성한다. 이 데이터는 도 32의 세기 맵 데이터(3221)를 포함하고 연장한다. 세기 데이터로부터, 시스템은 상점에 있는 각각의 사람에 대한 지점 2D 위치를 추정한다. 이 지점은 제1 쇼핑객에 대해 3231a이고 제2 쇼핑객에 대해 3232이다. 2D 지점은, 예를 들어, 각각의 지점의 세기에 비례하는 가중치를 사용하여, 세기의 로컬 최대치를 둘러싸는 구역 내 지점들의 가중된 평균으로서 계산될 수 있다. 제1 쇼핑객이 이동하고, 시스템은 이 쇼핑객의 2D 위치의 궤적(3230)을 추적한다. 이 궤적(3230)은, 예를 들어, 각각 다른 시간과 연관되는 일련의 위치로 구성될 수 있다. 예를 들어, 시간(t1)에, 제1 쇼핑객은 위치(3231a)에 있고, 시간(t4)에서, 쇼핑객은 2D 지점(3231b)에 도착한다. 서로 다른 시점에 있는 쇼핑객의 각각의 2D 지점 위치에 대해, 시스템은 해당 지점 주위에 영향 볼륨의 3D 필드를 생성할 수 있다. 이 영향 볼륨의 필드는 모든 쇼핑객과 모든 시점에 사용되는 표준 형상의 변환된 사본일 수 있다. 예를 들어, 도 32a에서, 시스템은 쇼핑객의 2D 위치를 통과하는 원통의 중심 축과 함께, 표준 높이 및 반경의 원통을 생성한다. 제1 쇼핑객에 대한 원통(3241a)은 시간(t1)에서 지점(3231a)의 영향 볼륨의 필드에 해당하고, 제2 쇼핑객에 대한 원통(3242)은 지점(3232)의 영향 볼륨의 필드에 해당한다. 원통은 예시적이고; 하나 이상의 실시예는, 예를 들어, 제한 없이, 원통, 구, 입방체, 평행 육면체, 타원체, 또는 이들의 임의의 조합을 포함하는, 영향 볼륨의 3D 필드에 대한 임의의 유형의 형상을 사용할 수 있다. 선택된 형상은 모든 쇼핑객과 쇼핑객의 모든 위치에 사용될 수 있다. 추적된 2D 위치를 주위의 간단하고 표준화된 볼륨의 사용은, 랜드마크 또는 다른 피처의 특정 위치를 추적하고 각각의 쇼핑객에 대한 상세한 3D 형상을 구성하는 것에 비해, 상당한 효율성 혜택을 제공한다.
[00235] 제1 쇼핑객이 시간(t4)에서 2D 위치(3231b)에 도달할 때, 영향 볼륨의 3D 필드(3241b)는 물품 저장 구역(3204)과 교차한다. 이러한 교차는, 쇼핑객이 선반에 있는 물품과 상호작용할 수 있다는 것 그리고 쇼핑객이, 선반을 추적하여 물품의 이동을 결정하고 이러한 이동을 제1 쇼핑객과 결부시키도록 시스템을 트리거할 수 있다는 것을 의미한다. 예를 들어, 교차가 발생하기 전에 또는 교차 시간 기간의 처음에 선반(3204)의 이미지는, 쇼핑객이 멀어지고 볼륨이 더 이상 선반과 교차하게 된 후, 또는 교차 시간 기간의 마지막에 선반의 이미지와 비교될 수 있다.
[00236] 하나 이상의 실시예는, 이 분석을 3D 대신 2D에서 완전히 또는 부분적으로 수행함으로써, 교차점의 검출을 더 단순화시킬 수 있다. 예를 들어, 선반(3204)에 대응하는 구역(3254)과 같은 물품 저장 구역의 2D 위치를 도시하는, 상점의 2D 모델(3250)이 사용될 수 있다. 2D에서, 영향 원통의 3D 필드는, 3D에서 원통(3241a 및 3241b)에 해당하는 원(이를테면 원(3251a 및 3251b))인 영향 구역의 2D 필드가 된다. 영향 구역의 2D 필드(3251b)와 2D 선반 구역(3254)의 교차는, 쇼핑객이 선반과 상호작용하여, 위에서 설명된 분석을 트리거할 수 있다는 것을 나타낸다. 하나 이상의 실시예에서, 3D 대신 2D에서의 교차점 및 영향 구역의 필드를 분석하는 것은, 요구되는 계산 및 모델링의 양을 감소시킴으로써 추가적인 효율성 혜택을 제공할 수 있다.
[00237] 위에서 설명된 바와 같이 그리고 도 26 내지 도 31에 예시된 바와 같이, 하나 이상의 실시예에서, 어안 카메라와 같은 천장-장착 카메라를 사용하여 사람 추적 및 탐지를 수행하는 것이 유리할 수 있다. 이러한 카메라들로부터의 카메라 이미지(이를테면 이미지(26A 내지 26F))는 도 32의 기계 학습 시스템(3220)에 대한 입력으로서 사용될 수 있다. 대안적으로 또는 추가로, 이러한 어안 이미지는 하나 이상의 평면에 투영될 수 있고, 투영된 이미지는 기계 학습 시스템(3220)에 입력될 수 있다. 다수의 카메라로부터의 이미지를 공통 평면에 투영하는 것은, 투영된 이미지에서 사람의 폐색되지 않은 뷰가 사람이 이 평면과 교차하는 지점에서 겹치기 때문에, 사람 검출을 단순화시킬 수 있다. 이 기법은, 상점(3200)의 천장에 설치된 2개의 돔 어안 카메라(3301 및 3302)를 도시하는 도 33에 예시된다. 어안 카메라(3301 및 3302)에 의해 캡처된 이미지는, 일반적인 쇼핑객에 대한 대략적인 허리 레벨에서, 상점의 바닥과 평행한 가상의 평면(3310)에 투영된다. 평면(3310)에 투영된 픽셀 위치는, 이들이 다른 물체에 의해 폐색되지 않는 경우, 이 높이에 있는 물체의 실제 위치와 일치한다. 예를 들어, 쇼핑객들 중 한 명이 이 위치에서 평면(3310)과 교차하기 때문에, 카메라(3301 및 3302)로부터의 어안 카메라 이미지의 픽셀(3311 및 3312)은 각각 평면(3310)에서 동일한 위치(3305)에 투영된다. 유사하게, 픽셀(3321 및 3322)은, 다른 쇼핑객이 이 위치에서 평면(3310)과 교차하기 때문에, 동일한 포지션(3306)에 투영된다.
[00238] 도 34a, 도 34b 내지 도 37은 인위적으로 생성된 장면에 대해 어안 이미지를 공통 평면에 투영하는 이 기법을 예시한다. 도 34a는 투시도로부터의 장면을 도시하고, 도 34B는 평면도로부터의 장면을 도시한다. 상점(3400)은 2개의 선반 사이에 바닥 구역이 있고; 현재 이 구역에는 2명의 쇼핑객(3401 및 3402)이 있다. 상점(3400)은 2개의 천장-장착 어안 카메라(3411 및 3412)를 갖는다. (상점의 천장은 예시를 단순화하기 위해 도시되지 않는다). 도 35는, 각각, 카메라(3411 및 3412)로부터 캡처된 어안 이미지(3511 및 3512)를 도시한다. 이러한 어안 이미지는 기계 학습 시스템에 직접 입력될 수 있지만, 시스템은 한 이미지에서의 물체의 포지션을 다른 이미지에서의 그 물체의 포지션과 관련시키는 방법을 학습해야 한다. 예를 들어, 쇼핑객(3401)은 카메라(3411)로부터의 이미지(3511)에서의 위치(3513)에서 그리고 카메라(3412)로부터의 이미지(3512)에서의 다른 위치(3514)에서 보인다. 기계 학습 시스템이 이러한 대응 관계를 학습하는 것이 가능할 수 있지만, 많은 양의 훈련 데이터가 필요할 수 있다. 도 36은 2개의 어안 이미지를 공통 평면(이 경우, 바닥에서 1 미터 위 평면)에 투영하는 것을 도시한다. 이미지(3511)는 투영(3601)을 사용하여 이미지(3611)로 변환되고, 이미지(3512)는 투영(3601)을 사용하여 이미지(3612)로 변환된다. 이 경우 투영 평면의 높이는 대부분의 쇼핑객의 몸통과 교차하도록 선택되고; 하나 이상의 실시예에서, 임의의 평면 또는 평면들이 투영에 사용될 수 있다. 하나 이상의 실시예는, 어안 이미지를 서로 다른 높이의 다수의 평면에 투영할 수 있으며, 이러한 투영 모두를 기계 학습 시스템에 대한 입력으로서 사용하여 사람을 검출할 수 있다.
[00239] 도 37은 쇼핑객의 위치가 이러한 2개의 이미지에서 일치함을 예시하기 위해 서로 겹쳐진 이미지(3611 및 3612)를 도시한다. 예시를 위해, 이미지는 각각 0.5씩 알파 가중된 다음 합산된다. 결과적인 중첩된 이미지(3701)는 쇼핑객(3401)에 대한 중첩(3711)의 위치 및 쇼핑객(3402)에 대한 중첩(3712)의 위치를 도시한다. 이러한 위치는 각각의 쇼핑객과 투영 평면의 교차점에 해당한다. 도 27a, 도 27b, 도 27c 및 도 28a, 도 28b, 도 28c 및 도 28d와 관련하여 위에서 설명된 바와 같이, 하나 이상의 실시예에서, 교차 구역(3711 및 3712)은, 예를 들어, 세기의 임계화 및 블랍 검출을 통해, 사람을 검출하기 위해 직접 사용될 수 있다. 대안적으로 또는 추가적으로, 투영된 이미지(3611, 3612)는, 아래에서 설명되는 바와 같이, 기계 학습 시스템에 입력될 수 있다.
[00240] 도 37에 예시된 바와 같이, 카메라 이미지에서의 사람의 외형은, 이 이미지가 공통 평면에 투영되더라도, 카메라 위치에 따라 다르다. 예를 들어, 이미지(3611)에서의 숫자 3721은, 이미지(3612)에서의 숫자 3722와 다르지만, 이러한 숫자는 결합된 이미지(3701)에서의 구역(3711)에서 겹친다. 이미지에 대한 이러한 카메라 위치 의존성 때문에, 카메라 위치에 대한 지식은 카메라 이미지에서 사람을 검출하는 기계 학습 시스템의 능력을 개선시킬 수 있다. 본 발명자는, 카메라 위치를 설명하는 효과적인 기법은, 투영된 평면 상의 각각의 연관된 지점과 카메라 위치 간의 거리를 반영하는 추가 "채널"을 사용하여 각각의 투영된 이미지를 연장시키는 것임을 발견했다. 예기치 않게, 입력 피처로서 이 채널을 추가하는 것은, 기계 학습 시스템이 사람 위치를 인식하도록 훈련시키는 데 필요한 훈련 데이터의 양이 극적으로 감소시킬 수 있다. 카메라 이미지를 공통 평면에 투영하고 각각의 이미지에 채널 거리 정보(channel of distance information)를 추가하는 이러한 기법은 당업계에 공지되지 않았다. 거리 정보를 추가 이미지 채널로서 인코딩하는 것은 또한, 이미지를 프로세싱하도록 구성된 기계 학습 시스템(예를 들어, 아래에서 설명되는 컨볼루션 신경망)이 이 추가 채널을 입력으로서 수용하도록 쉽게 적응할 수 있다는 혜택을 갖는다.
[00241] 도 38은 투영된 이미지와 연관된 카메라 거리 채널을 생성하기 위해 하나 이상의 실시예에서 사용될 수 있는 기법을 예시한다. 투영된 평면(예를 들어, 바닥 위 1 미터 평면)의 각각의 지점에 대해, 각각의 카메라까지의 거리가 결정될 수 있다. 이러한 거리는, 예를 들어, 보정된 카메라 포지션을 기반으로 계산될 수 있다. 예를 들어, 투영된 평면과 쇼핑객(3401)의 몸통의 교차점 상에 있는 지점(3800)에서, 이러한 거리는 카메라(3411)까지의 거리(3801) 및 카메라(3412)까지의 거리(3802)이다. 거리는, 이로 제한되는 것은 아니지만, 도 38에 도시된 바와 같은 유클리드 메트릭(Euclidean metric)을 포함하는 임의의 원하는 메트릭으로 계산될 수 있다. 카메라와 투영 평면 상의 각각의 지점 사이의 거리를 기반으로, 포지션 가중치(3811)가 각각의 지점에 대해 계산될 수 있다. 이 포지션 가중치는, 예를 들어, 이미지 상의 서로 다른 포지션에서 픽셀의 중요도를 조정하기 위해 기계 학습 시스템에 의해 사용될 수 있다. 포지션 가중치(3811)는 카메라와 포지션 간의 거리(3812)의 임의의 원하는 함수일 수 있다. 도 38에 도시된 예시적인 포지션 가중치 곡선(3813)은 거리 함수가 감소하는 선형으로, 최소 거리에서 최대 가중치 1.0을 갖는다. 포지션 가중치는 최대 거리에서 0으로 감소하거나 또는 어떤 다른 원하는 최소 가중치 값으로 설정될 수 있다. 하나 이상의 실시예는 선형 함수 이외의 포지션 가중치 함수를 사용할 수 있다. 하나 이상의 실시예에서, 포지션 가중치는 또한, 카메라로부터의 거리에 추가하여, 라이트 또는 장애물로부터의 거리, 선반 또는 다른 존에 대한 근접성, 폐색 또는 그림자의 존재와 같은 다른 변수 또는 임의의 다른 인자의 함수일 수 있다.
[00242] 카메라(3411 및 3412)에 대한 예시적인 포지션 가중치 맵(3821 및 3822)이 그레이 스케일 이미지로서 도 38에 도시된다. 그레이 스케일 이미지에서 더 밝은 픽셀은 더 높은 포지션 가중치에 대응하며, 이는 해당 픽셀과 연관된 투영된 평면 상의 포지션과 카메라 간의 더 짧은 거리에 대응한다.
[00243] 도 39는 도 38에서 생성된 포지션 가중치 맵이 사람 검출을 위한 하나 이상의 실시예에서 사용되는 방법을 예시한다. 카메라(3411 및 3412)로부터 각각 투영된 이미지(3611 및 3612)는 컬러 채널로 분리될 수 있다. 도 39는 이러한 이미지를 RGB 컬러 채널로 분리하는 것을 예시하고; 이들 채널은 예시적이며, 하나 이상의 실시예는, 임의의 컬러 공간 또는 임의의 다른 이미지 프로세싱 방법을 사용하여, 채널로의 이미지의 임의의 원하는 분해를 사용할 수 있다. RGB 채널은 이미지를 캡처한 카메라에 대한 포지션 가중치 맵을 표현하는 제4 채널과 결합된다. 각각의 이미지에 대한 4개의 채널은 기계 학습 시스템(3220)에 입력되며, 이는 각각의 픽셀에 대한 검출 확률을 갖는 출력(3221a)을 생성한다. 따라서, 이미지(3611)는 4개의 입력(3611r, 3611g, 3611b 및 3821)에 대응하고; 그리고, 이미지(3612)는 4개의 입력(3612r, 3612g, 3612b, 3822)에 대응한다. 기계 학습 시스템을 단순화하기 위해, 하나 이상의 실시예에서, 포지션 가중치 맵(3821 및 3822)은 연관된 컬러 채널과 동일한 크기를 갖도록 스케일링될 수 있다.
[00244] 기계 학습 시스템(3220)은 임의의 기계 학습 기술 또는 방법을 통합할 수 있다. 하나 이상의 실시예에서, 기계 학습 시스템(3220)은 신경망일 수 있거나 또는 이를 포함할 수 있다. 도 40은 하나 이상의 실시예에서 사용될 수 있는 예시적인 신경망(4001)을 도시한다. 이 신경망에서, 입력은 각각의 투영된 이미지에 대한 4 개의 채널이며, 제4 채널은 위에서 설명된 바와 같은 포지션 가중치를 포함한다. 입력(4011)은 제1 카메라로부터의 4개 채널을 표현하고, 입력(4012)은 제2 카메라로부터의 4개 채널을 표현하고, 임의의 수의 추가 카메라(또한, 포지션 가중치에 따라 증강됨)로부터의 추가 입력(4019)이 있을 수 있다. 포지션 가중치 채널을 포함하는 모든 이미지 채널을 동일한 크기로 스케일링함으로써, 모든 입력이 동일한 좌표계를 공유할 수 있다. 따라서, N개의 카메라와 H x W 크기의 이미지가 있는 시스템의 경우, 네트워크에 대한 총 입력 값 수는 N * H * W * 4일 수 있다. 보다 일반적으로, 이미지마다 C개의 채널(잠재적으로 포지션 가중치 포함함)의 경우, 총 입력 수는 N * H * W * C일 수 있다.
[00245] 예시적인 신경망(4001)은, 예를 들어, 2 개의 절반을 갖는 완전 컨벌루션 네트워크일 수 있고; 크기가 감소하는 계층으로 구성될 수 있는 피처 추출 네트워크의 N개의 사본(N개의 카메라의 경우)으로 구축된 제1(왼쪽) 절반부; 추출된 피처를 포지션에 매핑하는 제2(오른쪽) 절반부. 2개의 절반부 중간에 피처 병합 계층(4024)이 있을 수 있으며, 이는 예를 들어, N개의 피처 맵에 대한 평균일 수 있다. 네트워크의 제1 절반부는, 예를 들어, 표준 이미지 분류 네트워크의 N개의 사본을 가질 수 있다. 이 이미지 분류 네트워크의 최종 분류기 계층은 제거될 수 있으며, 네트워크는 사전-훈련된 피처 추출기로서 사용될 수 있다. 이 네트워크는, 이로 제한되는 것은 아니지만 사람을 포함하는 다양한 유형의 물체에 대한 이미지 및 라벨이 있는 표준 물체 데이터세트인 ImageNet 데이터세트와 같은 데이터세트에서 사전훈련될 수 있다. 네트워크의 하위 계층(이미지에 더 가까운)은 일반적으로 픽셀 통계 및 프리미티브(primitive)를 미러링한다. 사전훈련된 가중치는 임의 값으로 초기화될 수 있는 포지션 맵에 대한 추가 가중치로 증강될 수 있다. 그런 다음, 도 41과 관련하여 아래에 설명된 바와 같이, 전체 네트워크는 수동으로 라벨링된 사람 포지션으로 훈련될 수 있다. 사전훈련된 가중치를 포함하는 모든 가중치는 라벨링된 데이터세트로 훈련하는 동안 변할 수 있다. 예시적인 네트워크(4001)에서, 이미지 분류 네트워크(이미지 피처를 추출하는)의 사본은 4031, 4032 및 4039이다. (추가 카메라가 있는 경우 추가 사본이 있을 수 있다.) 이러한 사본(4031, 4032 및 4039) 각각은 동일한 가중치를 가질 수 있다.
[00246] 네트워크(4031)의 제1 절반부(그리고 또한 따라서 4032 및 4039)는, 예를 들어, 피처 맵의 공간 크기를 몇 배 감소시킬 수 있다. 예시적인 네트워크(4031)는 3개의 계층(4021, 4022 및 4023)으로 크기를 3 배 감소시킨다. 예를 들어, 크기가 H x W x C 인 입력(4011)과 같은 입력의 경우, 계층(4021, 4022 및 4023)의 출력 피처 맵은 크기가 각각 H/8 x W/8, H/16 x W/16, 및 H/32 x W/32일 수 있다. 이 예시적인 네트워크에서, 입력(4011)의 모든 C개의 채널은 계층(4021)에 입력되고 함께 프로세싱되어 H/8 x W/8 크기의 출력 피처를 형성하며, 이는 계층(4022)으로 다운스트림으로 공급된다. 이 값은 예시적이고; 하나 이상의 실시예는 임의의 원하는 치수의 각각의 계층의 입력 및 출력 크기를 갖는 임의의 수의 피처 추출 계층을 사용할 수 있다.
[00247] 피처 병합 계층(4024)은, 예를 들어, 이 병합 계층에 입력되는 모든 피처 맵에 대한 평균일 수 있다. 모든 카메라로부터의 입력이 동일하게 가중되므로, 네트워크 가중치를 변경하지 않고도 카메라 수를 동적으로 변경할 수 있다. 이러한 유연성은 이 신경망 아키텍처의 중요한 혜택이다. 이는, 하나 이상의 카메라가 작동하지 않는 경우에도, 시스템이 계속 기능하게 허용한다. 이는 또한, 시스템의 재훈련 없이도 언제든지 새로운 카메라가 추가되게 허용한다. 또한, 사용되는 카메라의 수는 운영 인력 검출을 위한 배치 동안과 비교할 때 훈련 동안에 상이할 수 있다. 이에 비해, 당업계에 공지된 사람 검출 시스템은, 카메라가 변경되거나 기능하지 않을 때 견고하지 않을 수 있으며, 상점의 카메라 구성이 변경될 때마다 상당한 재훈련이 요구될 수 있다.
[00248] 최종 축소 계층(4023)의 출력 피처와, 다른 카메라에 대한 중복 최종 축소 계층은 피처 병합 계층(4024)에 입력된다. 하나 이상의 실시예에서, 하나 이상의 이전 축소 계층으로부터의 피처는 또한 피처 병합 계층(4024)으로 입력될 수 있고; 이 조합은, 예를 들어, 이전 계층으로부터의 하위-레벨 피처와 이후 계층으로부터의 상위-레벨 피처의 혼합을 제공할 수 있다. 예를 들어, 이전 계층(또는 다수의 이전 계층)의 하위-레벨 피처는 카메라에 걸쳐 평균화되어 병합된 하위-레벨 피처 출력을 형성할 수 있으며, 이는 상위-레벨 피처의 평균과 함께 제2 절반 네트워크(4041)에 입력될 수 있다.
[00249] 피처 병합 계층(4024)의 출력(피처 맵들의 N개의 세트를 1개 세트로 감소시킴)은 제2 절반부 네트워크(4041)에 입력된다. 제2 절반부 네트워크(4041)는, 예를 들어, 입력 이미지의 크기 H x W와 매칭하도록 출력의 크기를 증가시키는 일련의 전치된 컨볼루션 계층(또한, 디컨볼루션(deconvolution) 계층으로 공지됨)을 가질 수 있다. 임의의 수의 디컨볼루션 계층이 사용될 수 있고; 예시적인 네트워크(4041)는 3개의 디컨볼루션 계층(4025, 4026 및 4027)을 갖는다.
[00250] 마지막 디컨볼루션 계층(4027)으로부터의 최종 출력(3221a)은 사람 포지션의 "히트 맵(heat map)"으로 해석될 수 있다. 출력 히트 맵(3221a)의 각각의 픽셀은 모든 카메라 이미지가 투영되는 투영 평면의 x, y 좌표에 대응한다. 출력(3221a)은 신경망(4001)으로부터의 출력의 더 높은 값에 대응하는 더 밝은 픽셀을 갖는 그레이 스케일 이미지로서 도시된다. 이러한 값은, 예를 들어, 0.0 내지 1.0 범위로 스케일링될 수 있다. 히트 맵의 "핫 스팟(hot spot)"은 사람 검출에 대응하며, 핫 스팟의 피크는 각각의 사람의 센트로이드의 x, y 위치를 표현한다. 신경망(4001)은 사람의 포지션을 검출하는 데 완벽한 정밀도를 갖지 않기 때문에, 출력 히트 맵은 핫 스팟의 센트로이드 주위에 더 높은 또는 중간 세기의 존을 포함할 수 있다.
[00251] 신경망(4001)과 같은 기계 학습 시스템은, 평면에 투영되는 카메라로부터 캡처된 이미지를 사용하여 훈련된 다음, 이미지 내의 사람 포지션을 나타내도록 수동으로 라벨링될 수 있다. 이 프로세스는 도 41에 예시된다. 사람이 상점에 있는 동안 카메라 이미지가 캡처되고 평면 상에 투영되어 이미지(3611)가 형성된다. 사용자(4101)는 이 이미지(뿐만 아니라, 이 세션 또는 다른 세션 동안, 동일한 카메라 또는 서로 다른 카메라로부터 캡처된, 다른 이미지)를 검토하고, 사용자는 투영 평면을 교차하는 구역의 센트로이드에 있는 사람의 포지션을 수동으로 라벨링한다. 사용자(4101)는 사람 위치에 대해, 4102 및 4103과 같은 지점을 선택한다. 그런 다음, 훈련 시스템은 선택된 지점 주위의 확률 밀도 분포를 생성한다(4104). 예를 들어, 하나 이상의 실시예에서의 분포는 선택된 지점을 중심으로 하는 어떤 지정된 폭의 2-차원 가우스일 수 있다. 타겟 출력(4105)은, 예를 들어, 각각의 픽셀에서 단계(4104)에서 생성된 분포의 합일 수 있다. 하나 이상의 실시예는, 사람 포지션을 나타내기 위해, 사용자에 의해 선택된 지점 또는 지점들 주위의 임의의 유형의 확률 분포를 사용할 수 있다. 그런 다음, 타겟 출력(4105)은 입력(4011 및 4012)과 같이 훈련에 사용되는 모든 카메라로부터의 카메라 입력(및 포지션 가중치)과 결합되어 훈련 샘플(4106)을 형성한다. 이 훈련 샘플은 신경망을 훈련시키는 데 사용되는 훈련 데이터세트(4107)에 추가된다.
[00252] 하나 이상의 실시예에서 사용될 수 있는 예시적인 훈련 프로세스는, 한 명 이상의 사람이 상점을 두루 이동하도록 하고 고정된 시간 간격(예를 들어, 매 1초 마다)으로 투영되는 카메라 이미지를 샘플링하는 것이다. 샘플링된 이미지는 도 41에 예시된 바와 같이 라벨링되고 프로세싱될 수 있다. 각각의 훈련 반복시에, 한 구역에 있는 카메라의 무작위 서브세트가 입력으로서 사용되도록 선택될 수 있다. 평면 투영은 또한, 상점 위의 어떤 높이 범위 내에서 바닥에 평행한 무작위로 선택된 평면에서 수행될 수 있다. 또한, 추가 샘플을 생성하기 위해 무작위 데이터 증강이 수행될 수 있고; 예를 들어, 합성 이미지가 생성되어 사람의 형상이나 컬러를 변형시키거나 상점의 상이한 구역으로 이 이미지를 이동(및 그에 따라 라벨링된 포지션을 이동)시킬 수 있다.
[00253] 상점이나 다른 구역에 있는 사람 및 물품의 추적은 이미 상점에 있을 수 있는 "레거시(legacy)" 감시 카메라를 포함하는 임의의 카메라(또는 다른 센서)를 사용할 수 있다. 대안적으로 또는 추가적으로, 시스템의 하나 이상의 실시예는, 자동화된 상점 시스템의 설치, 구성 및 동작을 단순화하는, 카메라 및 다른 컴포넌트를 갖는 모듈식 엘리먼트를 포함할 수 있다. 이러한 모듈식 컴포넌트는 자동화된 상점의 턴키(turnkey) 설치를 지원하여, 잠재적으로 설치 및 운영 비용을 감소시킬 수 있다. 또한, 추적을 위해 최적화된 모듈식 컴포넌트를 사용하여, 사람 및 물품의 추적 품질을 개선될 수 있다.
[00254] 도 42는, 선반에 있는 물품을 가져가거나 이동하거나 또는 배치하는 것을 검출하는 데 사용될 수 있는 모듈식 "스마트(smart)" 선반을 갖춘 상점(4200)을 예시한다. 예를 들어, 스마트 선반은 통합형 모듈에 카메라, 조명, 프로세싱 및 통신 컴포넌트를 포함할 수 있다. 상점은 하나 이상의 캐비닛, 케이스 또는 다수의 스마트 선반이 수직으로 적층된 선반 유닛을 가질 수 있다. 예시적인 상점(4200)은 2개의 선반 유닛(4210 및 4220)을 갖는다. 선반 유닛(4210)은 3개의 스마트 선반(4211, 4212 및 4213)을 갖는다. 선반 유닛(4220)은 3개의 스마트 선반(4221, 4222 및 4223)을 갖는다. 각각의 선반에서 어떤 물품 또는 물품들이 이동되는지 분석하기 위해, 데이터는 각각의 스마트 선반으로부터 컴퓨터(130)에 송신될 수 있다. 대안적으로 또는 추가적으로, 하나 이상의 실시예에서, 각각의 선반 유닛은 로컬 허브로서 작용할 수 있고, 선반 유닛의 각각의 스마트 선반으로부터의 데이터를 통합하고 이 통합된 데이터를 컴퓨터(130)에 전달할 수 있다. 선반 유닛(4210, 4220)은 또한 각각의 스마트 선반으로부터의 데이터에 대한 로컬 프로세싱을 수행할 수 있다. 하나 이상의 실시예에서, 자동화된 상점은, 예를 들어, 최상위 레벨에서의 전체 상점, 제2 레벨에서의 "스마트" 선반 유닛, 제3 레벨에서의 스마트 선반, 그리고 제4 레벨에서의 조명 또는 카메라와 같은 컴포넌트를 갖는 계층적 시스템(hierarchical system)으로서 구조화될 수 있다. 하나 이상의 실시예는 임의의 수의 레벨을 갖는 계층적 구조로 엘리먼트를 구성할 수 있다. 예를 들어, 상점은 구역으로 분할될 수 있으며, 로컬 프로세싱이 각각의 구역에 대해 수행된 다음 최상위-레벨 상점 프로세서에 전달된다.
[00255] 도 42에 도시된 스마트 선반은 선반의 바닥에 카메라가 장착되어 있고; 이러한 카메라는 아래 선반에 있는 물품을 관찰한다. 예를 들어, 선반(4212)에 있는 카메라(4231)는, 선반(4213)에 있는 물품을 관찰한다. 사용자(4201)가 선반(4213)에 있는 물품에 손을 뻗는 경우, 선반(4212 및 4213) 중 하나 또는 둘 다에 있는 카메라가 사용자의 손이 선반 구역으로 들어가는 것을 검출하고, 어떤 물품 또는 물품들이 가져가졌는지 또는 이동했는지를 결정하는 데 사용할 수 있는 선반 내용물의 이미지를 캡처할 수 있다. 이 데이터는, 카메라(4231 및 4232)와 같은 다른 상점 카메라로부터의 이미지와 결합되어, 쇼핑객을 추적하고 특정 쇼핑객에게 물품 이동을 결부시킨다.
[00256] 도 43은, 전면에서 본 스마트 선반(4212)의 예시적인 실시예를 도시한다. 도 44 내지 도 47은 이 실시예의 추가적인 도면을 도시한다. 스마트 선반(4212)은 각각 왼쪽 단부 및 오른쪽 단부에 카메라(4301 및 4302)를 가지며, 이는 선반의 전면 가장자리를 따라 안쪽을 향한다. 따라서, 좌측 단부 카메라(4301)는 우측을 향하고, 우측 단부 카메라(4302)는 좌측을 향한다. 이러한 카메라는, 예를 들어, 사용자의 손이 선반 구역 안팎으로 이동할 때를 검출하는 데 사용될 수 있다. 이러한 카메라(4301 및 4302)는 손 이벤트를 검출하기 위해 선반 유닛에 있는 선반(4212) 위 및/또는 아래의 선반(이를테면, 도 42의 선반(4211 및 4213))에 있는 유사한 카메라와 협력하여 사용될 수 있다. 예를 들어, 시스템은 다수의 손 검출 카메라를 사용하여 선반에 들어가는 손의 포지션을 삼각측량할 수 있다. 2개의 카메라가 손을 관찰하면, 손의 포지션이 2개의 이미지로부터 결정될 수 있다. 다수의 카메라(예를 들어, 4개 이상)가 선반을 관찰하면, 다수의 뷰가 잠재적인 폐색을 보상할 수 있기 때문에, 시스템이 한 번에 한 손 이상의 포지션을 결정할 수 있다. 손 진입 이벤트 직전의 선반의 이미지는, 어떤 물품 또는 물품들이 선반에서 가져가졌을지, 이동되었을지, 또는 선반에 추가되었을지를 결정하기 위해, 손 퇴장 이벤트 직후의 선반의 이미지와 비교될 수 있다. 하나 이상의 실시예에서, 선반에 대한 손 진입 및 손 퇴장 이벤트를 검출하기 위해, 카메라(4301 및 4302) 대신에 또는 이에 추가하여 다른 검출 기술이 사용될 수 있고; 이러한 기술은, 예를 들어, 제한 없이, 라이트 커튼(light curtain), 선반 또는 선반 유닛에 액세스하도록 열려야 하는, 문에 있는 센서, 초음파 센서 및 모션 검출기를 포함할 수 있다.
[00257] 스마트 선반(4212)은 또한, 아래의 선반(4213)을 향하는 선반의 바닥면에 장착된 하나 이상의 하향 카메라 모듈을 가질 수 있다. 예를 들어, 선반(4212)은 선반의 바닥면에 장착된 카메라 모듈(4311, 4312, 4313 및 4314)을 갖는다. 카메라 모듈의 수 및 이의 포지션 및 배향은 설치에 따라 다를 수 있으며 상점 내 개별 선반에 따라 다를 수 있다. 이러한 카메라 모듈은 선반에 있는 물품의 이미지를 캡처할 수 있다. 이러한 이미지에서의 변경은, 시스템에 의해, 선반 또는 선반 유닛에 있는 프로세서에 의해, 또는 이 둘 다에 의해 분석되어 아래 선반에서 어떤 물품이 가져가졌는지, 이동되었는지 또는 선반에 추가되었는지를 결정할 수 있다.
[00258] 도 44a 및 도 44b는 각각 스마트 선반(4212)의 평면도 및 측면도를 도시한다. 예를 들어, 선반(4212)을 선반 유닛에 부착하기 위해 브래킷(4440)이 사용될 수 있고; 장착 브래킷 또는 유사한 부착 메커니즘의 형상 및 포지션은 실시예에 따라 다를 수 있다.
[00259] 도 44c는 스마트 선반(4212)의 저면도를 도시한다. 카메라 모듈(4311, 4312, 4313 및 4314)과 연관된 하향 카메라, 및 내향 카메라(4301 및 4302)를 포함하는 모든 카메라를 이 도면에서 볼 수 있다. 이 예시적인 실시예에서, 각각의 카메라 모듈은 2개의 카메라를 포함한다: 모듈(4311)에서의 카메라(4311a 및 4311b), 모듈(4312)에서의 카메라(4312a 및 4312b), 모듈(4313)에서의 카메라(4313a 및 4313b), 모듈(4314)에서의 카메라(4314a 및 4314b). 이 구성은 예시적이고; 카메라 모듈은 임의의 수의 카메라를 포함할 수 있다. 카메라 모듈 당 2개 이상의 카메라의 사용은, 예를 들어, 아래 선반에 있는 물품의 3D 뷰 및 사용자가 선반에 있는 물품과 상호작용할 때 선반 콘텐츠에서의 변경에 대한 3D 표현을 생성하기 위해, 스테레오 비전을 지원할 수 있다.
[00260] 선반(4212)은 또한 라이트 모듈(4411, 4412, 4413, 4414, 4415 및 4416)을 포함한다. 이러한 라이트 모듈은 예를 들어, LED 조명 스트립일 수 있다. 스마트 선반의 실시예는 임의의 위치에서 임의의 수의 라이트 모듈을 포함할 수 있다. 라이트 모듈에서 방출되는 광의 세기, 파장 또는 다른 특징은 스마트 선반에 있는 프로세서에 의해 제어될 수 있다. 이러한 조명의 제어는, 물품 이동을 정확하게 검출하고 그리고 이동된 물품의 식별을 허용하는 이미지를 캡처하는 카메라 모듈의 능력을 향상시킬 수 있다. 조명 제어는 또한, 물품 프리젠테이션을 향상시키거나 판매중인 물품이나 새 제품과 같은 특정 물품을 강조하는 데 사용될 수 있다.
[00261] 스마트 선반(4212)은, 프로세서 및 네트워크 스위치를 포함하는 통합형 전자장치를 포함한다. 예시적인 스마트 선반(4212)에서, 이러한 전자장치는 선반의 단부에 있는 구역(4421 및 4422)에 포함된다. 하나 이상의 실시예는 선반의 임의의 포지션에 임의의 컴포넌트를 위치시킬 수 있다. 도 45는, 컴포넌트를 도시하기 위해, 전자장치 구역(4421 및 4422)에 대한 커버가 제거된 스마트 선반(4212) 저면도를 도시한다. 2개의 네트워크 스위치(4501 및 4503)가 포함되고; 이러한 스위치는, 예를 들어, 각각의 카메라 및 각각의 조명 모듈에 대한 연결, 및 스마트 선반과 상점 컴퓨터 또는 컴퓨터들 간의 연결을 제공할 수 있다. 프로세서(4502)가 포함되고;이는, 예를 들어, Raspberry Pi®또는 유사한 임베디드 컴퓨터일 수 있다. 전력 공급부(4504)가 또한 포함될 수 있고; 이러한 전력 공급부는 예를 들어, AC-DC 전력 변환을 제공할 수 있다.
[00262] 도 46a는 단일 카메라 모듈(4312)의 저면도를 도시한다. 이 모듈은 임의의 원하는 포지션에 다수의 카메라가 장착될 수 있는 장착 브래킷을 제공한다. 물품 크기, 물품 수, 선반 간의 거리와 같은 특징에 기반하여 카메라 포지션 및 수가 수정될 수 있다. 브래킷은 왼쪽에 슬롯(4601a, 4602a, 4603a)을 가지며, 오른쪽에 대응하는 슬롯(4601b, 4602b 및 4603b)을 갖는다. 이러한 슬롯들 중 임의의 슬롯의 임의의 원하는 위치에 개별 카메라를 설치될 수 있다. 카메라의 포지션은 초기 설치 후에 조정될 수 있다. 카메라 모듈(4312)은 상부 및 하부 슬롯 쌍에 설치된 2개의 카메라(4312a 및 4312b)를 갖고; 중앙 슬롯 쌍(4602a 및 4602b)은 이 예시적인 실시예에서 비어있다. 도 46b는 측면 뷰로부터의 개별 카메라(4312a)를 도시한다. 카메라를 설치하기 위해, 브래킷(4312)의 슬롯들 중 하나를 통해 나사(4610)가 삽입되고; 카메라 뒤쪽(far side)에 있는 대응하는 나사는 브래킷의 반대쪽 슬롯에 카메라를 부착한다.
[00263] 도 47은 카메라 모듈 및 조명 모듈이 스마트 선반(4212)의 임의의 원하는 포지션에 설치되는 방법을 예시한다. 추가 카메라 모듈 및 조명 모듈은 또한, 임의의 이용가능한 포지션에 추가될 수 있고, 설치된 컴포넌트의 포지션이 조정될 수 있다. 이러한 모듈은 선반의 한쪽 단부에 있는 레일(4701)에 (그리고 도 47에 도시되지 않은 다른쪽 단부에 있는 대응 레일에) 장착된다. 이 레일(4701)은, 레일에 대해 모듈의 단부 브래킷을 보유하기 위해 나사가 부착되는 슬롯을 갖는다. 예를 들어, 조명 모듈(4413)은 단부 브래킷(4703)을 가지며, 나사(4702)는 이 단부 브래킷을 통해 레일(4701) 내의 홈(groove)에 부착한다. 카메라 모듈(4312) 및 조명 모듈(4412)과 같은 다른 모듈을 부착하기 위해 유사한 부착물이 사용된다.
[00264] 하나 이상의 실시예는, 천장의 구성 가능한 위치에 카메라, 조명 및 잠재적으로 다른 컴포넌트를 통합하는 모듈식 "스마트" 천장을 포함할 수 있다. 도 48은 스마트 천장(4801)을 갖는 상점(4800)의 예시적인 실시예를 도시한다. 이 예시적인 천장은, 레일(4822)과 같은 가로 레일이 임의의 원하는 위치에 부착될 수 있는 중앙 세로 레일(4821)을 갖는다. 조명 모듈 및 카메라 모듈은 임의의 원하는 위치에서 가로 레일에 부착될 수 있다. 이 결합된 세로 및 가로 레일 시스템은 라이트 및 카메라를 위한 완전한 2개의 자유도 위치결정을 제공한다. 도 48에 도시된 구성에서, 3개의 가로 레일(4822, 4823 및 4824)은 각각 2개의 통합형 조명-카메라 모듈을 보유한다. 예를 들어, 가로 레일(4823)은, 원형 라이트 스트립(4811) 및 원형 라이트 스트립 내부의 중앙 구역에 2개의 카메라(4812 및 4813)를 포함하는 통합형 조명-카메라 모듈(4810)을 보유한다. 하나 이상의 실시예에서, 천장의 레일 또는 다른 장착 메커니즘은, 모듈(4810)과 같이 통합되거나 독립형인, 임의의 유형 또는 유형들의 조명 또는 카메라 컴포넌트를 보유할 수 있다. 도 48에 도시된 레일 구성은 예시적이고; 하나 이상의 실시예는 임의의 원하는 구성으로 임의의 유형의 조명-카메라 장착 메커니즘을 제공할 수 있다. 예를 들어, 장착 레일 또는 다른 장착 메커니즘은, 도 48에 예시된 가로 및 세로 레일 구성으로 제한되지 않고, 임의의 원하는 기하학적 구조에 제공될 수 있다.
[00265] 천장(4801)으로부터의 데이터는 분석을 위해 상점 컴퓨터(130)에 송신될 수 있다. 하나 이상의 실시예에서, 천장(4801)은, 카메라 및 라이트에 추가하여, 하나 이상의 네트워크 스위치, 전력 공급부 또는 프로세서를 포함할 수 있다. 천장(4801)은 데이터를 중앙 상점 컴퓨터(130)에 송신하기 전에 카메라로부터의 데이터의 로컬 프로세싱을 수행할 수 있다. 상점 컴퓨터(130)는 또한, 예를 들어, 조명 또는 카메라 파라미터를 제어하기 위해 명령 또는 다른 데이터를 천장(4801)에 송신할 수 있다.
[00266] 도 48에 예시된 실시예는 모듈식 스마트 천장(4801)뿐만 아니라, 스마트 선반을 갖는 모듈식 선반 유닛(4210 및 4220)을 갖는다. 천장(4801)으로부터의 그리고 선반 유닛(4210 및 4220)의 선반으로부터의 데이터는 분석을 위해 상점 컴퓨터(130)에 송신될 수 있다. 예를 들어, 컴퓨터(130)는 상점에 있는 사람,이를테면 쇼핑객(4201)을 추적하기 위해 천장(4801)으로부터의 이미지를 프로세싱할 수 있고, 그리고 선반에서 어떤 물품이 가져가졌는지, 이동되는지, 또는 선반에 배치되는지를 결정하기 위해 선반 유닛(4210 및 4220)의 선반으로부터의 이미지를 프로세싱할 수 있다. 사람 포지션을 선반 이벤트와 연관시킴으로써, 컴퓨터(130)는 어떤 쇼핑객이 물품을 가져가는지를 결정할 수 있고, 이로써 완전 또는 부분적 자동화된 상점을 지원할 수 있다. 스마트 천장 및 스마트 선반의 결합은 자동화된 상점에 대한 부분적 또는 전체적 턴키 해법을 제공할 수 있으며, 이는 상점의 기하학적 구조, 판매되는 물품의 유형 및 상점의 용량과 같은 인자를 기반으로 구성될 수 있다.
[00267] 도 49는 도 48의 천장과 유사한 모듈식 천장의 실시예를 도시한다. 중앙 세로 레일(4821a)은 가로 레일(4822a, 4822b, 4822c)을 위한 장착 표면을 제공하며, 이는 결국 조명-카메라 모듈을 통합하기 위한 장착 표면을 제공한다. 가로 레일은 세로 레일(4821a)을 따라 임의의 지점에 위치될 수 있다. 임의의 수의 가로 레일이 세로 레일에 부착될 수 있다. 임의의 수의 통합형 조명-카메라 모듈 또는 다른 호환가능한 모듈이 임의의 포지션에서 가로 레일에 부착될 수 있다. 가로 레일(4822a)은 2 개의 조명-카메라 모듈(4810a 및 4810b)을 갖고, 가로 레일(4822b)은 3개의 조명-카메라 모듈(4810c, 4810d 및 4810e)을 갖는다. 조명-카메라 모듈의 포지션은 장착 시스템의 유연성을 예시하기 위해 3개의 가로 레일에 따라 다르다.
[00268] 도 50은 가로 레일(4822a) 및 조명-카메라 모듈(4810a)의 클로즈업 뷰를 도시한다. 가로 레일(4822a)은 레일(4821a) 상의 대응하는 돌출부 둘레를 클램핑하는 C-형 부착물(5001)을 갖춘 크로스바(5022)를 갖는다. 가로 레일(4822a)의 포지션은 세로 레일(4821a)을 따라 조정가능하다. 조명-카메라 모듈(4810a)은 라이트(5011)로 둘러싸인 중앙 구역에 한 쌍의 카메라(5012 및 5013)를 갖춘 원형 형상의 환형 라이트(5011)를 갖는다. 예를 들어, 스테레오 비전을 제공하기 위해 2개의 카메라(5012 및 5013)가 사용될 수 있다. 대안으로 또는 추가로, 조명-카메라 모듈 당 2개 이상의 카메라가 중복성(redundancy)을 제공하여 1개의 카메라가 다운되더라도 사람 추적을 계속할 수 있다. 라이트(5011)의 원형 형상은, 반사를 감소시키고 장면에 걸친 조명 일관성을 개선함으로써 추적을 향상시킬 수 있는 확산 광(diffuse light)을 제공한다. 이 원형 형상은 예시적이고; 하나 이상의 실시예는, 예를 들어, 제한 없이, 임의의 다각형 또는 곡선 형상을 포함하는, 임의의 형상 또는 크기의 라이트를 사용할 수 있다. 라이트는, 예를 들어, 삼각형, 정사각형, 직사각형, 오각형, 육각형 또는 임의의 규칙적 또는 불규칙한 다각형과 같은 형상일 수 있다. 하나 이상의 실시예에서, 라이트는 다수의 세그먼트 또는 다수의 다각형 또는 곡선으로 구성될 수 있다. 하나 이상의 실시예에서, 라이트는, 조명 엘리먼트 없이, 중앙 구역을 둘러쌀 수 있고, 하나 이상의 카메라가 이 중앙 구역에 배치될 수 있다.
[00269] 하나 이상의 실시예에서, 라이트(5011)와 같은 라이트 엘리먼트는 제어가능할 수 있어서, 방출된 광의 세기, 파장 또는 다른 특징이 수정될 수 있다. 예를 들어, 하루 종일 또는 상점 구역 전체에 걸쳐 일관된 조명을 제공하기 위해 라이트가 수정될 수 있다. 상점의 특정 섹션을 강조하기 위해 라이트가 수정될 수 있다. 라이트는 라이트 엘리먼트에 커플링된 카메라에 의해 수신되는 카메라 이미지에 기반하여 또는 임의의 다른 카메라 이미지에 기반하여 수정될 수 있다. 예를 들어, 상점 시스템에 쇼핑객을 추적하는 데 어려움이 있는 경우, 방출된 광의 수정은 대비를 강화시키거나 잡음을 감소시킴으로써 추적을 개선시킬 수 있다.
[00270] 도 51은 통합형 조명-카메라 모듈(4810a)의 클로즈업 뷰를 도시한다. 브래킷 시스템(5101)은 (양 측에서) 라이트(5011)에 그리고 라이트의 중앙에 있는 2개의 카메라(5012 및 5013)에 연결되며, 이 브래킷 시스템(5101)은 레일을 따라 임의의 지점에 위치결정될 수 있는 레일(4822a)에 대한 연결을 갖는다. 브래킷 시스템(5101)의 중앙 수평 섹션(5102)은 카메라(5013)용 카메라 마운트(5104)가 장착되는 슬롯(5103)과 같은, 카메라용 장착 슬롯을 제공하고; 이러한 슬롯은 필요에 따라 카메라의 수 및 포지션이 수정되게 허용한다. 하나 이상의 실시예에서, 이 중앙 카메라 장착 브래킷(5102)은, 예를 들어, 도 46a에 도시된 선반 카메라 장착 브래킷과 유사하거나 동일할 수 있다. 하나 이상의 실시예에서, 카메라(5013)와 같은 천장 카메라는 또한 도 46a에 도시된 카메라(4312a)와 같은 선반 카메라와 유사하거나 동일할 수 있다. 스마트 선반 및 스마트 천장 둘 다에서 유사한 또는 동일한 컴포넌트의 사용은, 자동화된 상점의 설치, 운영 및 유지 관리를 더욱 단순화시킬 수 있으며, 공통 컴포넌트의 사용을 통해 비용을 감소시킬 수 있다.
[00271] 상점의 자동화는, 상점(4800)에 대해 도 52에 예시된 바와 같이, 3개의 일반적인 유형의 프로세스를 통합할 수 있고; (1) 상점 두루 쇼핑객(이를테면, 4201)의 이동(5201)을 추적하고, (2) 선반(4213)과 같은 물품 저장 구역과 쇼핑객의 상호작용(5202)을 추적하고, (3) 쇼핑객이 물품을 선반에서 가져가거나, 물품을 내려 놓거나 또는 물품을 재배열할 때, 물품의 이동(5203)을 추적한다. 도 52에 도시된 예시적인 자동화된 상점(4800)에서, 이러한 3개의 추적 프로세스는 카메라와 프로세서의 결합을 사용하여 수행된다. 예를 들어, 쇼핑객의 이동(5201)은 카메라(4812)와 같은 천장 카메라에 의해 추적될 수 있다. 프로세서 또는 프로세서들(130)은, 예를 들어, 도 26 내지 도 41과 관련하여 위에서 설명된 방법을 사용하여 이러한 천장 카메라로부터의 이미지를 분석할 수 있다. 상호작용(5202) 및 물품 이동(5203)은, 예를 들어, 선반에 통합된 카메라 또는 다른 저장 고정물, 이를테면 카메라(4231)를 사용하여 추적될 수 있다. 이러한 이미지의 분석은 상점 프로세서(130) 및 선반에 통합된 프로세서(이를테면, 4502) 중 하나 또는 이 둘 다를 사용하여 수행될 수 있다. 하나 이상의 실시예는 이러한 기법들의 조합을 사용할 수 있고; 예를 들어, 천장 카메라가 물품 저장 구역의 방해받지 않는 시야를 갖는 경우, 카메라는 상호작용 또는 물품 이동을 추적하는 데 사용될 수 있다.
[00272] 도 53 내지 도 62는 상호작용 및 물품 이동의 추적을 수행하기 위해 하나 이상의 실시예에서 사용될 수 있는 방법 및 시스템을 설명한다. 도 53a 및 도 53b는 이러한 방법 및 시스템을 설명하기 위한 예로서 사용되는 예시적인 시나리오를 도시한다. 도 53b는 쇼핑객이 선반에 손(5302)을 뻗기 이전의 물품 저장 구역을 도시하며, 도 53a는 쇼핑객이 물품을 제거하기 위해 선반과 상호작용한 이후의 이 물품 저장 구역을 도시한다. 전체 물품 저장 구역(5320)은 선반들(4213과 4212) 사이의 볼륨이다. 이 물품 저장 구역과 손(5302)의 상호작용의 검출은, 예를 들어, 선반(4212)에 있는 측방 카메라(4301 및 4302)로부터의 이미지를 분석함으로써 수행될 수 있다. 선반(4213)에 있는 카메라(5311 및 5312)와 같은, 다른 선반의 측방 카메라도 또한 사용될 수 있다. 하나 이상의 실시예에서, 쇼핑객과 물품 저장 구역의 상호작용을 검출하기 위해 카메라 대신에 또는 이에 추가하여 다른 센서가 사용될 수 있다. 통상적으로, 쇼핑객은 구역으로 손(5302)을 뻗음으로써 물품 저장 구역과 상호작용하지만; 하나 이상의 실시예는, 쇼핑객의 신체의 임의의 부위 또는 쇼핑객 구역으로 손을 뻗는데 아니면 구역 내 물품과 상호작용하기 위해 사용할 수 있는 임의의 기구 또는 툴을 통한, 쇼핑객과 물품 저장 구역의 모든 유형의 상호작용을 추적할 수 있다.
[00273] 물품 저장 구역(5320)은 상이한 유형의 다수의 물품을 포함한다. 예시적인 상호작용에서, 쇼핑객은 물품(5301a, 5301b 및 5301c)의 스택에 손을 뻗어, 스택에서 2개의 물품(5301b 및 5301c)을 제거한다. 쇼핑객이 어떤 물품 또는 물품들을 꺼냈는지의 결정은, 예를 들어, 물품 저장 구역(5320)으로 하향하는 상부 선반(4212)에 있는 카메라로부터의 이미지를 분석함으로써 수행될 수 있다. 이러한 분석은 또한, 쇼핑객이 하나 이상의 물품을 (예를 들어, 물품을 다시 놓음으로써, 또는 물품을 한 선반에서 다른 선반으로 이동함으로써) 추가했는지 또는 선반에서 물품을 옮겨 놓았는지를 결정할 수 있다. 카메라는, 예를 들어, 카메라 모듈(4311, 4312, 4313 및 4314)의 카메라를 포함할 수 있다. 물품 저장 구역을 관찰하여 물품 이동을 감지하는 카메라는 물품 저장 구역 위의 선반 하단에 있는 카메라에만 국한되지 않고; 하나 이상의 실시예는 물품 저장 구역을 관찰하고 물품 이동을 검출하기 위해 상점의 임의의 위치에 장착된 임의의 카메라 또는 카메라로부터의 이미지를 사용할 수 있다.
[00274] 물품 저장 구역의 "이전" 이미지와 "이후" 이미지를 비교함으로써 물품 이동이 검출될 수 있다. 상황에 따라 다수의 카메라의 이점 및 이후 이미지를 비교하는 것이 유용할 수 있다. 상이한 위치 또는 방향에서 다수의 카메라의 사용은, 예를 들어, 아래에서 설명되는 바와 같이, 물품 저장 구역에서의 물품의 변경에 대한 3-차원 뷰 생성을 지원할 수 있다. 이 3-차원 뷰는, 물품 저장 구역에 물품의 스택이 있는 도 53a 및 도 53b에 예시되는 것과 같은 시나리오에서 특히 유용할 수 있다. 예를 들어, 스택(5301a, 5301b, 5301c)을 하나의 "이후" 물품(5301a)에 비교하는 이전 이미지 및 이후 이미지는 스택 바로 위에 위치된 단일 카메라로부터 유사하게 보일 수 있지만; 상이한 위치에 있는 카메라의 뷰는 스택 높이가 변경되었는지를 결정하는 데 사용될 수 있다.
[00275] 물품 저장 구역의 이전 및 이후 콘텐츠의 전체 3-차원 뷰를 구성하는 것은, 예를 들어, 당업계에 공지된 임의의 스테레오 또는 멀티-뷰 비전 기법을 사용하여 수행될 수 있다. 하나 이상의 실시예에서 사용될 수 있는 이러한 하나의 기법은 평면-스위프 스테레오이며, 이는 다수의 카메라로부터의 이미지를, 스위프 축을 따른 상이한 포지션들 또는 상이한 높이에 있는 다수의 평면 상에 투영된다. (스위프 축은 흔히 수직일 필요는 없다.) 이 기법은 2D 이미지로부터 3D 볼륨을 구성하는 데 효과적이지만, 전체 물품 저장 구역에 대해 수행하는 데는 계산 집약적일 수 있다. 이 계산 비용은 자동화된 상점을 운영하는 데 드는 전력 비용을 상당히 추가시킬 수 있다. 이는 또한, 물품 이동을 식별하고 이러한 이동을 쇼핑객과 연관시키는 프로세스에 지연이 도입시킬 수 있다. 이러한 문제를 해결하기 위해, 본 발명자는, 최적화된 프로세스가 상당히 낮은 계산 비용으로 물품 저장 구역의 변경에 대한 3D 뷰를 효과적으로 생성할 수 있음을 발견했다. 이 최적화된 프로세스는 상대적으로 저렴한 2D 이미지 비교를 수행하여, 물품이 이동되었을 영역을 식별한 다음, 이러한 영역에서만 평면 스위핑(또는 유사한 알고리즘)을 수행한다. 이 최적화는 전력 소비 및 지연을 극적으로 감소시킬 수 있고; 예를 들어, 전체 선반의 완전 3D 재구성에는 20초가 걸릴 수 있지만 최적화된 재구성은 5초 이하가 소요될 수 있다. 예를 들어, 한 달에 수천 달러에서 수백 달러로 상점의 전력 비용이 감소될 수 있다. 이 최적화된 프로세스에 대한 상세사항은 아래에 설명된다.
[00276] 일부 실시예 또는 설치는 이러한 최적화를 수행하지 않을 수 있으며, 대신 전체 물품 저장 구역의 이전 콘텐츠 및 이후 콘텐츠 대한 완전 3D 재구성을 수행할 수 있다. 이는, 예를 들어, 매우 작은 선반에 또는 전력 소비 또는 계산 시간이 문제가 되지 않는 경우에 가능하거나 바람직할 수 있다.
[00277] 도 54는 물품 저장 구역에서 이동하는 물품을 식별하기 위해 하나 이상의 실시예에서 사용될 수 있는 단계들의 예시적인 시퀀스의 흐름도를 도시한다. 이 단계들은 하나 이상의 실시예에서 재순서화되거나, 결합되거나, 재배열 또는 아니면 수정될 수 있고; 일부 단계는 하나 이상의 실시예에서 생략될 수 있다. 이러한 단계는, 예를 들어, 제한 없이, 선반 또는 다른 물품 저장 유닛에 통합된 프로세서, 상점에 걸쳐 또는 상점 내 구역에서 정보를 프로세싱하는 상점, 또는 상점으로부터 원격인 프로세서를 포함하여, 임의의 프로세서들 또는 프로세서들의 조합 또는 네트워크에 의해 실행될 수 있다. 단계(5401a 및 5401b)는 물품 저장 구역을 관찰하는 다수의 카메라로부터 카메라 이미지를 획득한다. 단계(5401b)는 각각의 카메라로부터 "이전" 이미지를 획득하며, 이는 쇼핑객과 물품 저장 구역과의 상호작용이 시작되기 전에 캡처되고; 단계(5401a)는 이 상호작용 이후, 각각의 카메라로부터 "이후" 이미지를 획득한다. (도 55와 관련한 아래의 논의는 이러한 이미지 캡처에 대해 보다 상세히 설명한다.) 따라서, 물품 저장 구역을 관찰하는 C 카메라가 있는 경우, 2C 이미지 ― C "이전" 이미지 및 C "이후" 이미지 ―가 획득된다.
[00278] 단계(5402b 및 5402a)는 각각의 카메라로부터 물품 저장 구역의 표면 상에 이전 이미지 및 이후 이미지를 각각 투영한다. 이러한 투영은, 예를 들어, 도 33과 관련하여 위에서 설명된 쇼핑객 이미지의 투영과 유사할 수 있다. 물품 저장 구역을 관찰하는 카메라는, 예를 들어, 광시야를 캡처하는 어안 카메라를 포함할 수 있으며, 투영은 어안 이미지를 평면 이미지에 매핑할 수 있다. 이미지가 투영되는 표면은 임의의 형상 또는 배향의 표면일 수 있다. 가장 간단한 시나리오에서, 표면은, 예를 들어, 선반 위의 상이한 높이에 있는 평행한 평면일 수 있다. 표면은 또한, 수직 평면, 경사 평면 또는 굽은 표면일 수 있다. 임의의 수의 표면이 사용될 수 있다. 물품 저장 구역을 관찰하는 C개의 카메라가 있고 이러한 카메라로부터의 이미지가 각각 S개의 표면 상에 투영되면, 단계(5202a 및 5402b) 이후, 이후 이미지가 CxS 투영되고 이전 이미지가 CxS가 투영되어, 총 2CxS 투영 이미지가될 것이다.
[00279] 그런 다음, 단계(5403)는 이전 투영 이미지 및 이후 투영 이미지를 비교한다. 실시예는 픽셀 차이, 피처 추출 및 피처 비교, 또는 차이를 식별하도록 훈련된 기계 학습 시스템으로의 이미지 쌍 입력과 같이, 이미지를 비교하기 위해 다양한 기법이 사용될 수 있다. 단계(5403)의 결과는 CxS 이미지 비교일 수 있으며, 각각은 단일 표면에 투영되는 단일 카메라로부터의 이전 이미지 및 이후 이미지를 비교한다. 그런 다음, 이러한 비교가 단계(5404)에서 카메라에 걸쳐 결합되어 각각의 표면에 대한 변화 구역을 식별할 수 있다. 표면에 대한 변경 영역은, 예를 들어, 해당 표면의 2D 부분일 수 있으며, 여기서 그 2D 부분에 대한 다수의 카메라 투영은 이전 이미지와 이후 이미지 간의 변경을 나타낸다. 이는, 물품이 이동했을 수 있는 구역 주위의 대략적인 경계를 표현할 수 있다. 일반적으로, CxS 이미지 비교는 단계(5404)에서 S개의 변경 구역에 결합되며, 각각의 구역은 각각의 표면과 연관된다. 그런 다음, 단계(5405)는 S개의 변경 구역을 물품 저장 구역 내 3D 공간에서의 단일 변경 볼륨에 결합한다. 이 변경 볼륨은, 예를 들어, 경계 상자 또는 모든 S개의 변경 구역을 포함하는 다른 형상일 수 있다.
[00280] 그런 다음, 단계(5406b 및 5406a)는 각각 변경 볼륨 내에 이전 3D 표면 및 이후 3D 표면을 구성한다. 이러한 표면은 쇼핑객이 물품과 상호작용하기 이전 및 이후에 변경 볼륨 내 물품 저장 구역의 콘텐츠의 표면을 표현한다. 3D 표면은 평면-스위프 스테레오 알고리즘, 또는 다수의 카메라 뷰에서 3D 형상을 결정하는 유사한 알고리즘을 사용하여 구성될 수 있다. 그런 다음, 단계(5407)는 이러한 2개의 3D 표면을 비교하여, 이전 콘텐츠와 이후 콘텐츠 간의 3D 볼륨 차이를 결정한다. 그런 다음, 단계(5408)에서 볼륨 변경의 표시(sign)가 체크된다. 볼륨이 이전 3D 표면에서 이후 3D 표면에 추가되는 경우, 하나 이상의 물품이 선반에 놓인 것이고; 볼륨이 삭제된 경우, 하나 이상의 물품이 선반에서 가져가진 것이다.
[00281] 그런 다음, 3D 볼륨 차이의 이전 또는 이후 콘텐츠의 이미지가 사용되어, 어떤 물품 또는 물품들이 가져가졌는지 또는 추가되었는지를 결정한다. 볼륨이 삭제된 경우, 단계(5409b)는 삭제된 볼륨 구역을 교차하는 하나 이상의 투영된 이전 이미지의 일부를 추출하고; 유사하게, 볼륨이 추가된 경우, 단계(5409a)는 추가된 볼륨 영역을 교차하는 하나 이상의 투영된 이후 이미지의 일부를 추출한다. 추출된 이미지 부분 또는 부분들은, 단계(5410)에서, 제거된 또는 추가된 물품 또는 물품들을 식별하는 이미지 분류기에 입력될 수 있다. 분류기는 상점에서 이용가능한 물품의 이미지에 대해 훈련될 수 있다. 하나 이상의 실시예에서, 분류기는 신경망일 수 있지만; 이미지를 물품 아이덴티티에 매핑하는 임의의 유형의 시스템이 사용될 수 있다.
[00282] 하나 이상의 실시예에서, 3D 볼륨 차이의 형상 또는 크기, 또는 3D 볼륨 차이로부터 도출되는 임의의 다른 메트릭이 또한, 물품 분류기에 입력될 수 있다. 이는, 카메라 이미지에서의 물품의 외형에 추가하여, 물품의 형상 또는 크기에 기반하여 물품을 식별하는 데 도움이될 수 있다.
[00283] 3D 볼륨 차이는 또한, 단계(5411)에서, 물품 저장 구역에 추가되거나 이로부터 제거된 물품의 수량을 계산하는 데 사용될 수 있다. 각각의 물품의 볼륨이 물품 수량을 계산하기 위해 추가되거나 제거되는 총 볼륨과 비교될 수 있기 때문에, 이 계산은, 단계(5410)에서, 물품 또는 물품들을 식별한 이후에 발생할 수 있다.
[00284] 단계(5410)에서 결정된 물품 아이덴티티 및 단계(5411)에서 결정된 수량은, 단계(5412)에서, 물품 저장 구역과 상호작용한 쇼핑객과 연관될 수 있다. 볼륨 변화의 표시(5408)에 기반하여, 시스템은 또한, 놓기, 가져가기 또는 이동과 같은 행동을 쇼핑객과 연관시킬 수 있다. 쇼핑객은, 예를 들어, 위에서 설명된 방법들 중 임의의 방법을 사용하여 상점 두루 추적될 수 있으며, 상호작용 시간 기간 동안 물품 저장 구역에 대한 쇼핑객의 접근성은 물품 및 수량과 연관될 쇼핑객을 식별하는 데 사용될 수 있다.
[00285] 도 55는, 카메라로부터 이전 이미지 및 이후 이미지를 획득하기 위해, 도 55의 단계(5401a 및 5401b)를 구현하는 데 사용될 수 있는 컴포넌트를 예시한다. 이전 및 이후 이미지의 습득은, 쇼핑객이 물품 저장 구역에 입장하거나 퇴장할 때를 검출하는 하나 이상의 센서 서브시스템(5501)에 의해 생성된 이벤트에 의해 트리거될 수 있다. 센서(5501)는, 예를 들어, 프로세서 또는 프로세서들과 협력하는 측방 카메라(4301 및 4302)를 포함할 수 있으며, 이 프로세서 또는 프로세서들은, 쇼핑객이 물품 저장 구역에 도달하거나 물품 저장 구역에서 철회할 때를 검출하기 위해, 이러한 카메라로부터의 이미지를 분석한다. 실시예는, 이로 제한되는 것은 아니지만, 카메라, 모션 센서, 라이트 스크린, 또는 물품 저장 구역에 입장하도록 열리는 물리적 문 또는 다른 장벽에 커플링되는 검출기를 포함하여, 진입 및 퇴장을 검출하는 임의의 유형 또는 유형들의 센서를 사용할 수 있다. 도 55에 예시된 카메라 센서(4301 및 4302)의 경우, 이러한 카메라로부터의 이미지는, 예를 들어, 물품 저장 구역 위의 선반(4212)에 통합된 프로세서(4502)에 의해, 상점 프로세서(130)에 의해, 또는 이러한 프로세서들의 조합에 의해 분석될 수 있다. 예를 들어, 이미지 분석은 변화를 검출하고, 손이나 팔의 형상이나 크기를 찾을 수 있다.
[00286] 센서 서브시스템(5501)은 이벤트가 검출될 때 신호 또는 메시지를 생성할 수 있다. 센서 서브시스템이 쇼핑객이 물품 저장 구역에 입장했거나 또는 입장하고 있다는 것을 검출하는 경우, 센서 서브시스템은 입력 신호(5502)를 생성할 수 있고, 그리고 이 센서 서브시스템이 쇼핑객이 이 구역을 퇴장했거나 퇴장하고 있다는 것을 검출하는 경우, 퇴장 신호(5503)를 생성할 수 있다. 예를 들어, 진입은 쇼핑객이 선반들 사이의 공간에 손을 뻗는 것에 대응할 수 있고, 퇴장은 쇼핑객이 이 공간에서 손을 철회하는 것에 대응할 수 있다. 하나 이상의 실시예에서, 이러한 신호는, 예를 들어, 영향받는 물품 저장 구역 또는 쇼핑객 손의 대략적인 위치와 같은 추가 정보를 포함할 수 있다. 입장 및 퇴장 신호는, 쇼핑객이 상호작용하는 물품 저장 구역을 관찰하는 카메라에 의해 각각 캡처되는 이전 이미지 및 이후 이미지의 습득을 트리거한다. 입장 신호 이전에 이미지를 획득하기 위해, 카메라 이미지는 버퍼에 지속적으로 저장될 수 있다. 이 버퍼링은 선반(4212)의 밑면에 장착된 3개의 예시적인 카메라(4311a, 4311b, 4312a)에 대해 도 55에 예시된다. 이러한 카메라에 의해 캡처되는 프레임은 각각 원형 버퍼(5511, 5512 및 5513)에 지속적으로 저장된다. 이러한 버퍼는 프로세서(4502)에 통합되거나 이에 커플링되는 메모리에 있을 수 있으며, 이는 또한 선반(4212)에 통합될 수 있다. 하나 이상의 실시예에서, 카메라 이미지는, 물품 저장 구역 선반 또는 고정물에 물리적으로 통합되는 메모리를 포함하여, 임의의 장소에 위치된 메모리에 저장될 수 있다. 도 55에 예시된 아키텍처의 경우, 프레임은 카메라를 또한 포함하는 선반(4212)에 로컬로 버퍼링되고; 이 아키텍처는 상점의 다른 곳에서의 디바이스와 선반 카메라 간의 네트워크 트래픽을 제한한다. 로컬 선반 프로세서(4502)는 이미지 버퍼링을 관리하고, 이는 센서 서브시스템으로부터 입장 신호(5502) 및 퇴장 신호(5503)를 수신할 수 있다. 하나 이상의 실시예에서, 선반 프로세서(4502)는 또한, 센서 서브시스템의 일부일 수 있는 데, 이 프로세서가 쇼핑객이 물품 저장 구역에 입장하거나 퇴장할 때를 결정하기 위해 측방 카메라(4301 및 4302)로부터의 이미지를 분석할 수 있다는 점에서 그러하다.
[00287] 입장 신호 및 퇴장 신호가 프로세서에 의해, 예를 들어, 선반 프로세서(4502), 상점 서버(130) 또는 둘 모두에 의해 수신될 때, 프로세서는 원형 버퍼(5511, 5512 및 5513)에 저장된 프레임으로부터 이전 이미지(5520b) 이전에 검색할 수 있다. 프로세서는, 버퍼의 크기에 의해서만 제한되는 이전 이미지를 획득하기 위해, 임의의 원하는 시간량 동안 입장 신호 이전을 룩백(lookback)할 수 있다. 이후 이미지(5520a)는, 퇴장 신호 이후, 카메라로부터 직접 또는 원형 버퍼로부터 검색될 수 있다. 하나 이상의 실시예에서, 모든 카메라로부터의 이전 및 이후 이미지는 이벤트 데이터 기록에 함께 패키징될 수 있고, 예를 들어, 분석(5521)을 위해 상점 서버(130)로 송신되어 어떤 물품 또는 물품들이 쇼핑객의 상호작용의 결과로서 물품 저장 구역에서 가져가졌는지 또는 놓였는지를 결정할 수 있다. 이러한 분석(5521)은, 이로 제한되는 것은 아니지만, 선반 프로세서(이를테면, 4502) 및 상점 프로세서(이를테면, 130)를 포함하는, 임의의 프로세서 또는 프로세서들의 조합에 의해 수행될 수 있다.
[00288] 카메라로부터의 이전 이미지 및 이후 이미지의 세트로부터, 가져가진, 놓인 또는 이동된 물품을 식별하기 위한 분석(5521)은 하나 이상의 표면에 대한 이전 이미지 및 이후 이미지의 투영을 포함할 수 있다. 투영 프로세스는, 예를 들어, 상점을 두루 이동하는 사람을 추적하기 위해, 도 33 내지 도 40과 관련하여 위에 설명된 투영과 유사할 수 있다. 물품 저장 구역을 관찰하는 카메라는, 이로 제한되는 것은 아니지만, 어안 카메라일 수 있다. 도 56b 및 도 56a는 각각, 도 53b 및 도 53a에 예시된 물품 저장 구역의 2개의 예시적인 표면(5601 및 5602) 상으로의, 카메라(4311a)로부터의 이전 이미지 및 이후 이미지의 투영을 도시한다. 예시를 용이하게 하기 위해 2개의 표면이 도시되고; 이미지는 임의의 수의 표면상에 투영될 수 있다. 이 예에서, 표면(5601 및 5602)은 물품 보관 선반(4213)에 평행하고 이 선반에서 위의 선반으로 스위핑하는 축(5620a)에 수직인 평면이다. 표면은 임의의 형상 및 배향일 수 있고; 이는 반드시 평면일 필요도 없고 반드시 선반과 평행하지도 않는다. 투영은, 이 투영이 투영 표면과 교차할 때까지, 카메라로부터의 광선을 따라 픽셀을 매핑할 수 있다. 예를 들어, 투영된 평면(5601)과 광선(5603)의 교차점에 있는 픽셀(5606)은 도 56b의 이전 투영된 이미지 이미지와 도 56a의 이후 투영된 이미지 둘 다에서 동일한 컬러를 가지는 데, 이는 물체(5605)가 이전 상태에서 이후 상태로 선반(4213)에서 변경되지 않기 때문이다. 그러나, 도 56b의 광선(5604)을 따라 평면(5602)의 픽셀(5610b)은 물체(5301c)의 컬러를 반영하지만, 평면(5602)의 픽셀(5610a)은 선반(4213)의 지점(5611)의 컬러를 반영하는 데, 이는 물품(5301c)이 이전 상태와 이후 상태 사이에서 제거되었기 때문이다.
[00289] 투영된 이전 이미지와 이후에 투영된 이미지가 비교되어, 물품이 제거되거나, 추가되거나 또는 이동되었을 수 있는 대략적인 구역을 결정할 수 있다. 이 비교는 도 57a에 예시된다. 투영된 이전 이미지(5701b)는 투영된 이후 이미지(5701a)와 비교되고; 이러한 이미지는 둘 다 동일한 카메라에서 가져간 것이며 둘 다 동일한 표면에 투영된다. 하나 이상의 실시예는 이전 이미지 및 이후 이미지를 비교하기 위해 임의의 유형의 이미지 비교를 사용할 수 있다. 예를 들어, 제한 없이, 이미지 비교는 픽셀 단위 차이, 이미지의 상호-상관, 주파수 도메인에서의 비교, 한 이미지와 다른 이미지의 선형 변환의 비교, 추출된 피처의 비교, 또는 특정 유형의 이미지 차이를 인식하도록 훈련되는 훈련된 기계 학습 시스템을 통한 비교일 수 있다. 도 57a는 간단한 픽셀 단위 차이 동작(5403)을 예시하며, 이는 차이 이미지(5702)를 생성한다. (검은색 픽셀은 차이가 없음을 예시하고, 흰색 픽셀은 상당한 차이를 예시한다.) 차이(5702)는, 예를 들어, 이전 이미지와 이후 이미지 간의 조명의 약간의 변화 또는 고유한 카메라 잡음으로 인해 소란할 수 있다. 따라서, 하나 이상의 실시예는 이미지 차이를 프로세싱하여 차이 영역을 획득하기 위해 하나 이상의 동작(5704)을 적용할 수 있다. 이러한 동작은, 예를 들어, 제한 없이, 선형 필터링, 모폴로지 필터링(morphological filtering), 임계화 및 경계 박스(bounding box) 또는 볼록 껍질(convex hull) 찾기와 같은 경계 동작을 포함할 수 있다. 결과적인 차이(5705)는, 예를 들어, 원래 차이 이미지(5702)에서 영역(5703) 중 불규칙하고 소란스러운 구역 주위의 경계 박스일 수 있는 변경 영역(5706)을 포함한다.
[00290] 도 57b는 실제 샘플 선반으로부터 캡처되는 이전 투영된 이미지(5711b) 및 이후 투영된 이미지(5711a)에 대해 차이나는 이미지를 예시한다. 차이 이미지(5712)는 변경 영역(5716)을 식별하도록 필터링되고 경계가 지정되는 소란스러운 영역(5713)을 갖는다.
[00291] 임의의 유형의 이미지 비교를 사용하는 투영된 이미지 차이는 카메라에 걸쳐 결합되어 각각의 투영된 표면에 대한 최종 차이 영역을 형성할 수 있다. 이 프로세스는 도 58에 예시된다. 3개의 카메라(5801, 5802, 5803)는 쇼핑객 상호작용 이전 및 이후 물품 저장 구역의 이미지를 캡처하고, 이러한 이미지는 평면(5804) 상에 투영된다. 투영된 이전 이미지와 투영된 이후 이미지 간의 차이는 카메라(5821, 5822 및 5823)에 대해 각각 5801, 5802 및 5803이다. 이러한 차이들은 (예를 들어, 이 차이들을 평균화함으로써) 직접 결합될 수 있지만, 하나 이상의 실시예는 각각의 투영된 픽셀과 개개의 카메라에 대한 거리를 반영하는 인자에 의해 픽셀별로 차이를 더 가중할 수 있다. 이 프로세스는, 쇼핑객 추적을 위해 쇼핑객의 투영된 이미지를 가중화시키기 위한, 도 38과 관련하여 위에서 설명된 가중화와 유사한다. 이미지(5821, 5822 및 5823)와 연관된 예시적인 픽셀 가중치는 각각 5811, 5812 및 5813이다. 포지션 가중치 이미지에서 더 밝은 픽셀은 더 높은 픽셀 가중치를 표현한다. 가중치가 이미지 차이에 곱해질 수 있고, 곱(product)이 동작(5831)에서 평균화될 수 있다. 그런 다음, 결과는 동작(5704)에서 필터링되거나 그렇지 않으면 변환될 수 있으며, 그 결과 그 투영된 평면(5804)에 대한 최종 변경 영역(5840)이 생성된다.
[00292] 다양한 투영된 평면 또는 다른 표면에서 차이 영역을 계산한 후, 하나 이상의 실시예는 이러한 변경 영역을 결합하여 변경 볼륨을 생성할 수 있다. 변경 볼륨은, 하나 이상의 물품이 가져가졌거나, 놓였거나, 또는 이동된 것으로 나타나는 물품 저장 구역 내의 3-차원 볼륨일 수 있다. 투영된 표면의 변경 영역은 임의의 방식으로 결합되어 변경 볼륨을 형성할 수 있다. 하나 이상의 실시예에서, 변경 부피는 모든 변경 영역을 포함하는 경계 볼륨으로서 계산될 수 있다. 이 접근방식은 도 59에 예시되어 있으며, 여기서 투영된 평면(5601)의 변경 영역(5901) 및 투영된 평면(5602)의 변경 영역(5902)이 결합되어 변경 볼륨(5903)을 형성한다. 이 예에서, 변경 볼륨(5903)은, 수평 방향의 범위가 투영된 평면의 변경 영역의 최대 범위이고 물품 저장 구역의 수직 범위에 걸쳐 있는 3-차원 박스이다. 하나 이상의 실시예는 임의의 형상 또는 크기의 변경 부피를 생성할 수 있다.
[00293] 그런 다음, 이전 상태에서 이후 상태로의 변경 볼륨의 차이에 대한 상세한 분석이 수행되어, 이 변경 볼륨에서 특정 물품 또는 물품들이 추가되거나, 제거되거나 또는 이동된 것이 식별될 수 있다. 하나 이상의 실시예에서, 이 분석은 쇼핑객 상호작용 이전 및 이후에 물품 저장 구역의 콘텐츠를 표현하는 변경 볼륨 내 3D 표면의 구성을 포함할 수 있다. 이러한 3D 이전 표면 및 이후 표면은 물품 저장 구역의 다수의 카메라 이미지로부터 생성될 수 있다. 장면의 다수의 카메라 이미지로부터 3D 형상을 구성하기 위한 많은 기법들이 당업계에 알려져 있고; 실시예는 이러한 기법들 중 임의의 것을 사용할 수 있다. 사용될 수 있는 하나의 기법은 평면-스위프 스테레오(plane-sweep stereo)이며, 이는 일련의 다수의 표면 상에 카메라 이미지를 투영하고, 특정 표면에 대해 카메라에 걸쳐 상관되는 이미지의 패치의 위치를 찾는다. 도 60은 도 53a 및 도 53b의 예에 대한 이 접근방식을 예시한다. 경계 3D 변경 볼륨(5903)은 다수의 투영된 평면 또는 다른 표면으로 스위핑되고; 이 예에서, 표면은 선반에 평행한 평면이다. 예를 들어, 위에서부터, 연속 투영된 평면은 6001, 6002 및 6003이다. 투영된 평면 또는 표면은 변경 영역 및 변경 볼륨의 위치를 찾기 위해 이전 단계에서 사용된 투영된 평면 또는 표면과 동일하거나 상이할 수 있다. 예를 들어, 변경 볼륨(5903)의 스위핑은 이전 3D 표면 및 이후 3D 표면의 더 미세한 해상도 추정치를 획득하기 위해 더 많은 평면 또는 표면을 사용할 수 있다. 변경 볼륨(5903) 내의 물품 저장소의 이전 콘텐츠(6000b)의 스위핑은 3D 이전 표면(6010b)을 생성하고; 변경 볼륨(5903) 내의 이후 콘텐츠(6000a)의 스위핑은 3D 이후 표면(6010a)을 생성한다. 단계(5406)는 이러한 이전 3D 표면과 이후 3D 볼륨 간의 3D 볼륨 차이를 계산한다. 이 3D 볼륨 차이는, 예를 들어, 2개의 표면 사이의 3D 공간일 수 있다. 3D 볼륨 차이의 표시 또는 방향은 물품이 추가되었는지 또는 제거되었는지 여부를 나타낼 수 있다. 도 60의 예에서, 이후 3D 표면(6010a)은 이전 3D 표면(6010b) 아래에 있으며, 이는 물품 또는 물품들이 제거되었음을 나타낸다. 따라서, 표면(6010b 및 6010a) 사이에서 삭제된 볼륨(6011)은 제거된 물품의 볼륨이다.
[00294] 도 61은 다양한 높이의 물품을 포함하는 샘플 선반에 적용된 평면-스위프 스테레오의 예를 도시한다. 이미지(6111, 6112 및 6113) 각각은, 서로 수퍼임포징되는(superimposed) 2개의 서로 다른 카메라로부터의 투영된 2개의 이미지를 도시한다. 투영은 상이한 높이에서 취해진다. 이미지(6111)는 선반 높이에서 가장 낮은 높이(6101)로 투영되고; 이미지(6112)는 높이(6102)로 투영되고; 이미지(6113)는 높이(6103)로 투영된다. 투영된 각각의 높이에서, (매칭한다는 점에서) 초점이 맞춰진 2개의 수퍼임포징된 이미지의 패치는 표면이 투영된 높이에 있는 물체를 표현한다. 예를 들어, 수퍼임포징된 이미지(6111)의 패치(6121)는, 이러한 이미지가 선반 자체를 도시하기 때문에, 예상대로 높이(6101)에서 초점이 맞춰진다. 패치(6122)는 수퍼임포징된 이미지(6112)에 초점이 맞춰져 있어, 이러한 물체는 높이(6102)에 있고; 그리고 패치(6123)는 수퍼임포징된 이미지(6113)에 초점이 맞춰져 있어, 이 물체(컨테이너들 중 하나 컨테이너의 상단 덮개임)는 높이(6103)에 있다.
[00295] 3D 볼륨 차이는 추가되거나, 제거되거나, 또는 이동된 물품의 위치를 나타내지만; 이는 이러한 물품의 아이덴티티를 직접 제공하지 않는다. 일부 상황에서, 선반 또는 다른 물품 저장 구역에 있는 물품의 포지션은 고정될 수 있으며, 이 경우, 영향받는 물품 또는 물품들을 추론하기 위해 볼륨 차이의 위치가 사용될 수 있다. 다른 상황에서, 3D 볼륨 차이의 구역의 이미지가 수반되는 물품 또는 물품들의 아이덴티티를 결정하기 위해 사용될 수 있다. 이 프로세스는 도 62에 예시된다. 하나 이상의 카메라로부터의 이미지는 3D 볼륨 차이(6011)와 교차하는 표면 패치(6201) 상에 투영될 수 있다. 이 표면 패치(6201)는 볼륨 차이와 투영된 표면의 교차점을 포함하기에 충분히 크게만 선택될 수 있다. 하나 이상의 실시예에서, 다수의 표면 패치가 사용될 수 있다. 투영된 이미지(6202) (또는 다수의 이러한 이미지)는 물품 분류기(6203)에 입력될 수 있으며, 이는 예를 들어, 상점에서 이용가능한 물품의 이미지를 인식하도록 그리고 물품의 아이덴티티(6204)를 출력하도록 훈련되거나 프로그래밍되었을 수 있다.
[00296] 3D 볼륨 차이(6011)의 크기 및 형상은 또한, 물품 저장 구역에 추가되거나 이로부터 제거된 물품의 수량을 결정하는 데 사용될 수 있다. 물품의 아이덴티티(6204)가 결정되면, 단일 물품의 크기(6205)는 3D 볼륨 차이의 크기(6206)와 비교될 수 있다. 예를 들어, 물품 크기는 상점에서 이용가능한 물품에 대한 이러한 정보의 데이터베이스로부터 획득될 수 있다. 이 비교는 추가되거나, 제거되거나 또는 이동된 물품의 수량에 대한 값(6207)을 제공할 수 있다. 물품 수량의 계산은 3D 볼륨 차이(6011) 및 물품의 임의의 피처, 이를테면 볼륨, 치수 또는 형상을 사용할 수 있다.
[00297] 3D 볼륨 차이의 표시를 사용하여 쇼핑객이 물품을 가져갔는지 또는 배치했는지를 결정하는 대신 또는 이에 추가하여, 하나 이상의 실시예가 이전 이미지 및 이후 이미지를 함께 프로세싱하여, 이동된 물품 또는 물품들 그리고 그 물품 또는 그 물품들에 대한 쇼핑객의 행동을 동시에 식별할 수 있다. 물품 및 행동의 동시적 분류는, 예를 들어, 도 63에 예시된 바와 같이, 컨볼루션 신경망을 사용하여 수행될 수 있다. 컨볼루션 신경망(6310)에 대한 입력은 예를 들어, 위에서 설명된 바와 같이, 변경 영역을 교차하는 투영된 이미지의 일부일 수 있다. 하나 이상의 카메라로부터의 이전 투영된 이미지 및 이후 투영된 이미지 둘 다의 일부가 네트워크에 입력될 수 있다. 예를 들어, 변경 영역에 가장 가까운 스테레오 카메라 쌍이 사용될 수 있다. 하나 이상의 실시예는 물품 및 동작을 분류하기 위해 임의의 수의 카메라로부터의 이전 이미지 및 이후 이미지를 사용할 수 있다. 도 63에 도시된 예에서, 하나의 카메라로부터의 이전 이미지(6301b) 및 이후 이미지(6301a), 그리고 제2 카메라로부터의 이전 이미지(6302b) 및 이후 이미지(6302a)가 네트워크(6310)에 입력된다. 입력은, 예를 들어, 변경 영역을 커버하는 투영된 카메라 이미지의 크롭(crop)일 수 있다.
[00298] 네트워크(6310)의 출력은 변위된 물품 또는 물품들의 식별(6331) 및 물품 또는 물품들에 대해 수행된 행동의 식별(6332)을 포함할 수 있다. 가능한 행동은, 예를 들어, "가져가기", "놓기", "이동", "행동 없음" 또는 "알 수 없음" 중 일부 또는 전부를 포함할 수 있다. 하나 이상의 실시예에서, 신경망(6310)은, 이전 이미지 및 이후 이미지에 대해 직접 동작하고 물품 및 행동을 출력함으로써, 도 54의 흐름도로부터 단계(5405 내지 5411)의 기능의 일부 또는 전부를 수행할 수 있다. 보다 일반적으로, 이미지를 획득하는 것과, 물품, 수량 및 행동을 쇼핑객과 연관시키는 것 사이의, 도 54에 예시된 단계 중 임의의 것 또는 전부는 하나 이상의 신경망에 의해 수행될 수 있다. 통합형 신경망은, 예를 들어, 이전 카메라 이미지 및 이후 카메라 이미지를, 그리고 상호작용에 수반되는 물품, 행동 및 수량을 포함하는 샘플 상호작용의 훈련 데이터세트를 사용하여, 종단간(end-to-end) 훈련될 수 있다.
[00299] 하나 이상의 실시예는 임의의 타입 및 아키텍처의 신경망 또는 다른 기계 학습 시스템 또는 분류기를 사용할 수 있다. 도 63은 하나 이상의 실시예에서 사용될 수 있는 예시적인 컨볼루션 신경망 아키텍처를 도시한다. 이미지 크롭(6301b, 6301a, 6302b, 6302a) 각각은 피처 추출 계층의 사본에 입력된다. 예를 들어, 18-계층 ResNet 네트워크(6311b)는 이전 이미지(6301b)에 대한 피처 추출기로서 사용될 수 있으며, 동일한 18-계층 ResNet 네트워크(6311a)는 이후 이미지(6301a)에 대한 피처 추출기로서 사용될 수 있으며, 다른 카메라로부터의 입력에 대해 유사한 계층이 이용된다. 그런 다음, 이전 피처 맵과 이후 피처 맵 쌍이 차감될 수 있고, 차이 피처 맵들이, 동작(6312)에서(카메라 1에 대해, 다른 카메라에 대한 유사한 차감 및 연접(concatenation)을 이용하는, 이전 및 이후 쌍), 채널 치수를 따라 연접될 수 있다. 예시적인 네트워크에서, 연접 이후 채널의 수는 1024일 수 있다. 피처 맵을 병합한 후, 2개 이상의 컨볼루션 계층, 이를테면 계층(6313a 및 6313b)이 있고 이어서, 2개의 병렬로 완전 연결된, 물품 식별을 위한 계층(6321) 및 행동 분류를 위한 계층(6322)이 있을 수 있다. 행동 분류기(6322)는 가능한 행동, 이를테면 "가져가기", "배치" 또는 "행동 없음"에 대한 출력을 갖는다. 물품 분류기는 상점에서 이용가능한 가능한 제품에 대한 출력을 갖는다. 네트워크는, 예를 들어, ResNet 계층에 대해 사전-훈련된 ImageNet 가중치로 시작하여 종단간 훈련될 수 있다.
[00300] 하나 이상의 실시예에서, 카메라 이미지는 다른 유형의 센서로부터의 데이터와 결합되어, 쇼핑객이 가져간, 교체한 또는 이동한 물품을 추적할 수 있다. 도 64는 이 접근방식을 활용하는 예시적인 상점(6400)을 도시한다. 이 예시적인 상점은 쇼핑객(이를테면, 쇼핑객(4201))을 추적하기 위한 천장 카메라(이를테면, 카메라(4812))를 갖는다. 선반 유닛(4210)은 각각 선반(4212 및 4213)과 연관된 센서 바(6412 및 6413)에 센서를 갖고; 이러한 센서는 선반에 있는 품목을 가져 가거나 교체하는 것과 같은 쇼핑객의 행동을 검출할 수 있다. 각각의 센서는 선반의 연관된 저장 구역에 있는 물품을 추적할 수 있고; 예를 들어, 센서(6402a)는 선반(4213)의 저장 구역(6401a)에 있는 물품을 추적할 수 있다. 센서는 저장 구역과 일대일(one-to-one)로 연관될 필요가 없고; 예를 들어, 하나의 센서가 다수의 저장 존에서의 행동을 추적할 수 있거나, 또는 다수의 센서가 단일 저장 존에서의 행동을 추적하는 데 사용될 수 있다. 센서(이를테면, 센서(6402a))는, 예를 들어, 제한 없이, 거리, 힘, 스트레인, 모션, 복사, 사운드, 에너지, 질량, 무게 또는 진동의 센서를 포함하는, 임의의 유형 또는 모달리티의 센서일 수 있다. 상점 카메라(이를테면, 카메라(6421 및 6422))는 쇼핑객이 행동을 수행하는 물품을 식별하는 데 사용될 수 있다. 이러한 카메라는, 상점 내에, 벽, 고정물 또는 천장에 장착되거나, 또는 선반 유닛(4210) 또는 선반(4212 및 4213)에 통합될 수 있다. 하나 이상의 실시예에서, 천장 카메라(이를테면, 카메라(4812))는 물품 식별을 위해 카메라(6421 및 6422)에 추가로 또는 이 대신에 사용될 수 있다.
[00301] 천장 카메라(이를테면, 4812), 다른 상점 또는 선반 카메라(이를테면, 카메라(6421 및 6422)), 그리고 선반 또는 선반 유닛 센서(이를테면, 6412 및 6413)로부터의 데이터가 분석을 위해 프로세서 또는 프로세서들(130)에 송신된다. 프로세서(130)는, 예를 들어, 하나 이상의 상점 서버이거나 또는 이를 포함할 수 있다. 하나 이상의 실시예에서, 이미지 또는 센서 데이터의 프로세싱은 선반, 선반 유닛 또는 카메라 고정물에 통합된 프로세싱 유닛에 의해 수행될 수 있다. 이러한 프로세싱 유닛은, 예를 들어, 데이터를 필터링하거나 이벤트를 검출할 수 있으며, 선택된 또는 변환된 정보를 추가 분석을 위해 하나 이상의 상점 서버에 송신할 수 있다. 따라서, 하나 이상의 실시예에서, 프로세서(130)는 상점 서버와 결합된 로컬 마이크로프로세서와 같은 프로세싱 유닛 조합 또는 네트워크일 수 있다. 하나 이상의 실시예에서, 프로세싱의 일부 또는 전부는 상점으로부터 원격인 프로세서에 의해 수행될 수 있다.
[00302] 프로세서 또는 프로세서들(130)은 카메라 및 다른 센서로부터의 데이터를 분석하여, 쇼핑객을 추적하고, 쇼핑객이 물품 또는 물품 저장 구역에 대해 수행하는 행동을 검출하고, 그리고 쇼핑객이 가져가거나, 교체하거나 또는 이동한 물품을 식별할 수 있다. 쇼핑객의 트랙(5201)을 물품에 대한 행동의 시간 및 위치를 상관시킴으로써, 물품은, 예를 들어, 무인 상점에서의 자동화된 체크아웃을 쇼핑객과 연관될 수 있다.
[00303] 실시예는 쇼핑객 및 물품 추적을 수행하기 위해 다양한 조합으로 카메라 및 다른 유형의 센서를 혼합할 수 있다. 도 65는 다양한 예시적 조합을 나타내는, 분석 단계와 센서 간의 관계를 도시한다. 이러한 조합은 비제한적이고; 하나 이상의 실시예는 임의의 태스크 또는 프로세스에 대해 임의의 유형 또는 유형들의 센서 데이터를 사용할 수 있다. 쇼핑객의 추적(6501)은, 예를 들어, 상점 카메라(6510)로부터의 이미지를 사용할 수 있으며, 상점 카메라(6510)는, 천장 카메라(6511) 또는 예를 들어, 벽 또는 고정물에 장착된 다른 카메라(6512)를 포함할 수 있다. 물품 저장 구역에서 물품에 대한 쇼핑객의 행동의 검출(6502)은, 예를 들어, 선반 카메라(6520)로부터의 이미지 및 선반 또는 선반 유닛에 있는 센서(6530)로부터의 데이터의 일부 또는 전부를 사용할 수 있다. 예를 들어, 선반 센서(6530)는, 예를 들어, 거리(6531)를, 예를 들어, LIDAR 센서(6541) 또는 초음파 센서(6542)를 사용하여 측정할 수 있거나 또는 무게(6532)를, 예를 들어, 스트레인 게이지 센서(6543) 또는 다른 스케일(6544)을 사용하여 측정할 수 있다. 쇼핑객이 제거하거나 추가하는 물품의 식별(6503)은, 예를 들어, 상점 카메라(6510) 또는 선반 카메라(6520)의 이미지를 사용할 수 있다. 쇼핑객이 추가하거나 제거하는 수량의 결정(6504)은, 예를 들어, 선반 카메라(6520)로부터의 이미지 또는 선반 센서(6530)로부터의 데이터를 사용할 수 있다. 위에서 설명된 가능한 조합은 상호 배타적이지 않으며 이를 제한하지도 않는다.
[00304] 하나 이상의 실시예에서, 선반 센서(6530)는 임의의 유형의 물품 저장 구역과 연관된 센서일 수 있다. 물품 저장 구역은, 예를 들어, 하나 이상의 저장 존으로 분할될 수 있고, 센서는 각각의 존과 연관될 수 있다. 하나 이상의 실시예에서, 이러한 센서는 물품 저장 구역 또는 물품 저장 구역의 저장 존에 있는 물품의 수량과 상관될 수 있는 데이터 또는 신호를 생성할 수 있다. 예를 들어, 선반의 일부에 있는 무게 센서는 선반의 그 일부에 있는 물품의 수를 반영하는 무게 신호를 제공할 수 있다. 센서는 저장 존 또는 전체 물품 저장 구역에 있는 물품의 수량과 임의의 방식으로 상관되는 임의의 유형의 신호를 측정할 수 있다. 일부 상황에서, 물품 저장 존에 부착된 수량 센서를 사용하는 것은, 쇼핑객과 물품 둘 다를 추적하기 위해 카메라만 사용하는 것에 비해, 비용이 감소되고 정확도가 개선될 수 있다.
[00305] 도 66a는 저장 존이 후면 벽을 갖는 저장통인 예시적 실시예를 도시하는 데, 후면 벽은 물품이 저장통에서 제거될 때 전방으로 이동한다. 선반(4213a)은 4개의 저장 존으로 분할된다: 저장통(6401a), 저장통(6401b), 저장통(6401c) 및 저장통(6401d). 각 저장통의 후면 벽(6601a, 6601b, 6601c, 6601d)은 이동식이며, 물품이 제거될 때 전방으로 이동하며, 물품이 저장통에 추가됨에 따라 후방으로 이동한다. 이 실시예에서, 저장통의 이동식 백은 등을 밀어내는 스프링으로 인해 앞으로 이동한다. 하나 이상의 실시예는 임의의 원하는 방법을 사용하여 저장통의 백을 이동시킬 수 있다. 예를 들어, 하나 이상의 실시예에서, 저장통은 전면 단부가 후면 단부보다 낮게 기울어질 수 있고, 물품 및 후방 벽은 중력으로 인해 전방으로 미끄러질 수 있다.
[00306] 도 66a의 실시예에서, 수량 센서(6413)는 선반(4213a)의 저장통 뒤에 위치된다. 이러한 센서는 저장통의 연관된 이동식 백과 센서 간의 거리를 측정한다. 별개의 센서가 각각의 저장통과 연관된다. 거리 측정은, 예를 들어, 제한 없이, LIDAR, 초음파 거리 측정, 벽에 있는 인코더, 또는 카메라를 포함하는, 임의의 감지 기술을 사용할 수 있다. 예시적인 실시예에서, 센서(6413)는 단일-픽셀 LIDAR 센서일 수 있다. 이러한 센서는 저렴하고 견고하며, 정확한 거리 측정을 제공한다.
[00307] 도 66b는 도 66a의 실시예의 평면도를 도시한다. 스프링 또는 유사한 메커니즘은 각각의 이동식 백을 저장통 전면을 향해 편향시키고; 예를 들어, 스프링(6602a)은 이동식 백(6601a)을 저장통(6401a)의 전면을 향해 밀어 낸다. 하나 이상의 실시예에서 사용될 수 있는 또 다른 유형의 선반은 중력 공급 선반이며, 여기서 선반은 하방으로 기울어지고, 제품은 미끄러운(slippery) 표면 또는 롤러에 배치되어, 제품이 제거될 때 제품은 미끄러져 내려가거나, 제품이 추가될 때 제품은 뒤로 밀린다. 하나 이상의 실시예에서 사용될 수 있는 또 다른 선반 유형은 전동식 분배기(motorized dispenser)이며, 여기서는 컨베이어 또는 다른 형태의 액추에이션이 제품을 전면에 분배한다. 이 모든 경우에서, 거리 측정은 선반의 특정 레인 또는 저장통에 있는 제품 수를 나타내며, 측정 통계에서의 거리 변화 또는 섭동(perturbance)은 행동/수량을 나타낸다. 저장통(6401d)에 대한 거리 측정이 예시된다. LIDAR(6402d)는 이동식 백(6601d)에서 반사되는 광(6403d)을 방출한다. 광의 왕복(round trip) 비행 시간(6604d)은 센서(6402d)에 의해 측정되고 거리로 변환된다. 이 실시예에서, LIDAR(6402a, 6402b, 6402c 및 6402d)로부터의 거리 신호는, 선반(4213a) 또는 선반이 설치되는 선반 유닛에 통합되거나 또는 이와 커플링될 수 있는 마이크로 프로세서 또는 마이크로 제어기(6610)에 송신된다. 이 프로세서(6610)는 행동 이벤트를 검출하기 위해 신호를 분석할 수 있고, 행동 데이터(6611)를 상점 서버(130)에 전송할 수 있다. 예를 들어, 이 데이터는 행동 유형(이를테면, 물품 제거 또는 추가), 수반되는 물품의 수량, 이벤트가 발생한 저장 존, 및 이벤트 시간을 포함할 수 있다. 하나 이상의 실시예에서, 행동 검출은 로컬 마이크로 프로세서(6610) 없이 상점 서버(130)에 의해 수행될 수 있다. 실시예는 (이를테면, 선반 마이크로 프로세스에서) 로컬 프로세싱을 혼합 또는 결합하고, 임의의 원하는 방식으로 서버 프로세싱을 저장할 수 있다.
[00308] 저장 동작 동안, 수량 센서는, 거리, 무게 또는 다른 변수와 같은 수량 측정에 대한 통계를 수집해서 변경된 양의 데이터 패킷(거리/무게/다른 수량 변수) 및 변경 시작 및 종료 시간으로서 보고하는 신호 프로세서(6610)에 데이터를 공급할 수 있다. 시작/중지 시간은 이벤트 이전 및 이후에 카메라 이미지와 다시 상관시키는 데 유용하다. 선반의 유형에 따라, 상품(merchandise)의 스택이 앞열(front row)로 전진하는 데 시간이 걸릴 수 있으므로, 이벤트를 시간 범위로 구속시키는 것이 유용하다. 선반이 탬퍼링되는 경우, 센서는 시작 이벤트를 보고할 수 있지만 매칭되는 종료 이벤트는 없다. 이 경우, 특정 선반의 마지막 상태는 카메라 이미지로부터 추론될 수 있고; 결함이 있는/탬퍼링된 피더 선반(feeder shelf)은, 상품이 전방으로 공급되지 않기 때문에, 빈 슬롯으로 도시될 것이다. 일반적으로, 카메라 이미지는 선반에서(in-shelf) 수량 센서 외에도 이용가능하며, 감지 중복성은 단일 센서가 결함이 있는 또는 탬퍼링되는 이벤트에서 계속 동작하게 할 것이다.
[00309] 이벤트 데이터(6611)는 또한, 이벤트가 발생한 (물품 저장 구역 내) 저장 존을 나타낼 수 있다. 각각의 물품 저장 구역의 각각의 저장 존의 상점 내 3D 위치가 측정되거나 보정되고 3D 상점 모델에 저장될 수 있기 때문에, 이벤트 위치 데이터는, 특정 쇼핑객에게 물품 행동을 결부시키기 위해, 쇼핑객 위치와 상관될 수 있다.
[00310] 하나 이상의 실시예는, 선반에 다양한 개수와 크기의 저장 존을 수용하도록 쉽게 재구성될 수 있고 선반 고정물에 쉽게 장착될 수 있는 모듈식 센서 바를 통합할 수 있다. 모듈식 센서 바는 또한, 설치, 유지보수 및 구성을 단순화하기 위해 전력, 전자장치 및 통신을 통합할 수 있다. 도 66c는 선반(4213e) 뒤에 장착된 예시적인 모듈식 센서 바(6413e)를 도시한다. 센서 바(6413e)는, 임의의 원하는 수의 거리 센서 유닛이 장착될 수 있고 임의의 저장 구역 또는 저장통 뒤의 포지션으로 미끄러질 수 있는 레일을 갖는다. 레일의 전면 뒤에는, 거리 센서로부터의 신호를 프로세싱하는 마이크로 프로세서와 같은 케이블 및 전자장치를 포함하는 밀폐된 구역이 있을 수 있다. 도시된 구성에는 3개의 거리 센서 유닛(6402e, 6402f 및 6402g)이 있다. 물품 저장 구역의 폭이 상이하기 때문에 거리 센서 유닛은 간격이 균등하지 않다. 상점이 크기가 다른 물품을 갖게 선반을 재구성하면, 거리 센서 유닛은 쉽게 새 포지션으로 이동할 수 있으며, 이 유닛은 필요에 따라 추가되거나 제거될 수 있다. 각각의 거리 센서 유닛은, 예를 들어, 대응 저장 존의 후면까지의 거리를 측정하기 위해 비행 시간을 사용하는 LIDAR를 포함할 수 있다.
[00311] 도 66d는 상점에 있는 예시적인 모듈식 센서 바(6413f)의 이미지를 도시한다. 이 센서 바는 튐-방지(splash-proof) 스테인리스강 금속 인클로저로 만들어진다. 이는 기존 선반 유닛, 예를 들어, 유닛의 수직면(6620)에 부착된다. 인클로저는, 원시 신호를 수신하고 신호를 이벤트로 프로세싱하는 프로세서 유닛 또는 유닛들을 포함한다. 인클로저 내 마이크로 프로세서는, 예를 들어, USB 또는 이더넷을 통해 신호를 상점 서버에 송신할 수 있다. 개별 거리 센서 유닛(이를테면, 유닛(6402h))은, 센서를 포함하고 바 인클로저를 따라 미끄러지는 검은색 플라스틱 캐리어이다. 이는, 상품을 포함하는 피더 레인의 치수와 일치하도록 바를 따라 어디에나 위치결정될 수 있다. 이 구성에서, 센서는 더 좁은 그리고 더 넓은 물체와 이의 저장 존을 수용하도록 쉽게 이동될 수 있고, 일단 선반이 구성되면 캐리어는 제자리에 잠궈진다. 거리 센서 유닛은 유리 전면(클리닝성(cleanability)을 위함) 및 잠금 메커니즘을 가질 수 있다. 센서 유닛으로부터 프로세서로의 와이어는 강철 인클로저의 바닥에 있는 슬롯을 통해 인클로저로 공급되어, 임의의 액체 축적을 방지하고, 임의의 튀는 액체가 전자장치로부터 흘러 나오게 한다.
[00312] 도 67은 LIDAR(또는 다른 거리 센서)로부터의 거리 데이터(6701)의 저장 존(6702)에 있는 물품의 수량으로의 변환을 예시한다. 저장 존에서 물품이 제거될 때, 이동식 백이 센서에서 더 멀리 이동하고; 따라서, 수량(6702)은 거리(6701)에 반비례하게 달라진다. 거리 및 수량에 관련한 라인의 기울기는 저장통에 있는 물품의 크기에 따라 좌우되고; 예를 들어, 탄산음료 캔의 직경이 머핀보다 작은 경우, 탄산음료 캔에 대한 라인(6703)이 머핀에 대한 라인(6704) 위에 놓인다. 따라서, 거리(6701)로부터 저장 존에 있는 물품의 수량을 결정하는 것은 각각의 존에 있는 물품의 유형에 대한 지식이 요구할 수 있다. 이 정보는, 저장 구역이 설정되거나 비축될 때 구성될 수 있거나, 또는 예를 들어, 도 72a와 관련하여 아래에서 설명되는 바와 같이, 이미지 분석을 사용하여 결정될 수 있다.
[00313] 도 68은, 도 66a 및 도 66b에 예시된 실시예로부터, 시간(6801)에 따른 거리 신호(6802)의 변화에 기반한 행동 검출을 예시한다. 이 검출은, 예를 들어, 마이크로 프로세서(6601)에 의해, 상점 서버(130)에 의해 또는 이들의 조합에 의해 수행될 수 있다. 거리 신호(6802)에서의 작은 변동은 잡음 때문일 수 있고; 따라서 이러한 변동은, 예를 들어, 저역 통과 필터에 의해 필터링될 수 있다. 빠르게 복귀되지 않는 큰 변경은 연관된 저장 존에 대해 물품이 추가되거나 또는 제거되었음을 나타낼 수 있다. 예를 들어, 신호(6811c)의 변경(6803)은 저장 존(6401c)에서 행동(6804)으로서 검출되고, 신호(6811b)의 변경(6805)은 저장 존(6401b)에서 행동(6806)으로서 검출된다. 행동 신호(6804 및 6806)는, 예를 들어, 행동 유형(예를 들어, 추가 또는 제거), 수반되는 물품의 수량, 행동이 발생한 시간 및 동작이 발생한 저장 존을 나타낼 수 있다. 행동의 시간은 거리 측정이 크게 변경된 시간 범위일 수 있고; 이 시간 범위의 시작 시작 및 중지 시간은 물품을 분류하거나 또는 행동을 추가로 특징화하기 위해, 카메라 이미지(시작 시간 이전의 "이전 행동" 이미지 및 중지 시간 이후의 "이후 행동" 이미지)와 상관될 수 있다.
[00314] 도 69a 및 도 69b는, 수량 변경 및 쇼핑객 행동을 검출하기 위해 상이한 유형의 저장 존 센서를 사용하는 상이한 선반 실시예(4213b)를 예시한다. 이 실시예는 예를 들어, 가방에 있는 물품과 같이, 행잉 상품에 사용될 수 있다. 이 실시예에서 저장 존은 하나 이상의 물품이 배치될 수 있는 행잉 로드에 대응한다. 선반 또는 랙(4213b)은 4개의 행잉 로드(6901a, 6901b, 6901c 및 6901d)를 갖는다. 각각의 로드와 센서가 연관되며, 센서는 로드에 있는 물품의 무게를 측정하고; 이 무게는 로드에 있는 물품 수와 상관된다. 도 69b는 로드(6901b)의 측면도를 도시하며, 무게 측정 계산을 도시한다. 로드는 2개의 엘리먼트(6911 및 6912)에 의해 지지된다. 이러한 2개의 엘리먼트는 로드를 정적 평형 상태로 유지하는 힘을 제공한다. 스트레인 게이지(또는 다른 센서)(6913 및 6914)는 엘리먼트(6911 및 6912)에 의해 가해지는 힘(6931 및 6932)을 각각 측정할 수 있다. 개별 힘(6931 및 6932)이 로드에 있는 물품의 무게 및 이러한 물품의 위치에 따라 다르지만; 힘들(6931 및 6932) 간의 차이는 로드와 물품의 질량에 따라서만 달라진다. 이 힘의 차이는 로드의 질량(6922) 및 로드에 행잉되어 있는 물품의 질량(이를테면, 6921a, 6921b 및 6921c)으로 인해 총 중량(6930)과 같아야 한다. 따라서, 계산(6940)은, 이를테면 물품 질량 및 로드 질량 당 알려진 수량 및 스트레인 게이지 센서 신호에 기반하여 로드에 있는 물품의 수량(k)을 도출한다. 스트레인 게이지(6913 및 6914)의 이러한 배열, 및 계산(6940)은 예시적이고; 하나 이상의 실시예는 임의의 배열에서 2개(또는 그 이상의 스트레인 게이지)를 사용할 수 있으며, 이들의 판독치는 결합되어, 로드에 행잉된 물품의 질량 및 그에 따른 물품의 수량을 도출할 수 있다.
[00315] 도 70a 및 도 70b는 저장통(7001a, 7001b, 7001c)으로 분할된 물품 저장 구역(4213c)의 다른 예시적인 실시예를 도시하며, 이 각각은 저장통의 콘텐츠를 계량하기 위한 하나 이상의 연관된 중량 센서를 갖는다. 도 70b는 스트레인 게이지(7002a 및 7002b)가 있는 2개의 엘리먼트에 의해 지지되는 저장통(7001a)의 측면도를 도시한다. 2개의 스트레인 게이지의 사용은 예시적이고; 하나 이상의 실시예는 저장통을 계량하기 위해 임의의 수의 스트레인 게이지 또는 다른 센서를 사용할 수 있다. 이러한 2개의 스트레인 게이지에 의해 측정되는 힘들의 합은 저장통의 무게와 그의 콘텐츠와 매칭한다. 도 69b의 계산(6940)과 유사한 계산이 저장통에 있는 물품의 수를 결정하는 데 사용될 수 있다. 하나 이상의 실시예는, 이로 제한되는 것은 아니지만, 스트레인 게이지를 포함하는 임의의 유형의 센서 기술을 사용하여 저장통을 계량할 수 있다. 예를 들어, 모든 유형의 전자식 또는 기계식 저울이 사용될 수 있다.
[00316] 수량 센서가 통합된 또는 커플링된 선반의 잠재적인 혜택은 선반이 서로 밀접하게 포장될 수 있다는 것이며, 이는 선반 내용물을 내려다 보는 카메라가 행동을 검출하거나 또는 수량을 결정하는 데 필요하지 않을 수 있기 때문이다. 이는, 저장 존 또는 물품 저장 구역과 연관된 수량 센서와 조합되는 경우, 각각의 저장 구역의 전면을 관찰할 수 있는 카메라가 있으면 충분할 수 있다. 이 시나리오는 도 71에 예시되며, 이는 3개의 선반(4213aa, 4213ab 및 4213ac)가 서로 겹겹이 쌓여 작은 공간에 고밀도로 제품을 제공하며, 선반 사이의 간격(7103)은 물품의 높이보다 단지 약간 더 높을수 있다. 선반은 수량 센서(이를테면, 도 66a 및 도 66b에 예시된 센서)를 포함하고; 따라서, 선반 아래를 관찰하기 위해 선반의 바닥에 하향 카메라를 설치할 필요가 없을 수 있다. 대신, 상점 내 다른 카메라(이를테면, 카메라(7101 및 7102))가 각각의 물품 저장 존의 전면을 관찰하도록 배향될 수 있다. 이러한 다른 카메라는 벽, 천장 또는 고정물에 장착될 수 있거나, 또는 저장 존을 포함하는 선반 유닛에 통합될 수 있다. 물품 저장 존의 전면을 관찰하기 위해 임의의 수의 카메라가 사용될 수 있다. 제품의 포장 밀도를 증가시키는 것 이외에, 이러한 배열은 선반의 바닥에 있는 비교적 값비싼 카메라를 저렴한 수량 센서(이를테면, 단일-픽셀 LIDAR)로 교체함으로써 비용을 감소시킬 수 있다. 여러 대의 카메라가 상이한 시점에서 선반을 관찰하는 것은, 적어도 하나의 카메라에서 선반의 임의의 지점에 대해 폐색되지 않는 뷰를 입수 가능할 수 있다는 이점을 제공한다. (이 혜택은 도 73과 관련하여 아래에서 추가로 설명된다.)
[00317] 도 72a는, 물품 저장 존에서 가져간 또는 물품 저장 존에 교체된 물품을 식별하기 위한 카메라(7101 및 7102)로부터의 이미지의 사용을 예시한다. 물품을 가져가는 행동(7201)은 선반(4213ac)의 저장 존과 연관된 수량 센서에 의해 검출된다. 이 행동은, 행동, 저장 존 및 영향받는 저장 존, 시간 및 잠재적으로 물품의 수량을 제공하는 (예를 들어, 선반의 마이크로 프로세서로부터의) 신호(7202)를 생성한다. 이 신호는 상점 서버(130)에 의해 수신된다. 그런 다음, 상점 서버(130)는 카메라(7101 및 7102)로부터 이미지를 획득하고, 영향받는 물품 또는 물품들을 식별하기 위해 이러한 이미지를 사용한다. 행동 신호(7202)가 하나 이상의 물품이 가져가졌음을 나타내기 때문에, 서버는 행동 이전에 영향받는 저장 존의 "이전" 이미지를 획득할 필요가 있다. (이 행동이 물품이 추가되었음을 나타내는 경우, 서버는 행동 이후 영향받는 저장 존의 "이후" 이미지를 획득할 것이다). 그런 다음, 서버는 물품 저장 구역의 전면에 대응하는 수직 평면(7203) 상에 이들 이미지를 투영할 수 있다. 이러한 투영은, 예를 들어, 여기서의 투영이 도 33에서와 같이 수평 평면이 아닌 수직 평면에 대한 것이라는 점을 제외하고, 도 33과 관련하여 설명된 바와 같이 수행될 수 있다. 다수의 카메라로부터의 이미지를 물품 저장 구역 전면의 공통 평면에 투영함으로써, 카메라 포지션 및 배향의 차이로 인한 왜곡을 최소화되고; 따라서, 각각의 저장 존 전면에 있는 물품을 식별하기 위해 카메라 이미지가 결합될 수 있다. 추가로, 이 평면에 모든 카메라 뷰를 다시 투영함으로써, 본 발명자는 모든 카메라가 선반의 뷰에 합치하게 할 수 있다. 투영된 뷰는 선반의 물리적 기하학적구조와 1:1이고; 이미지 XY 공간의 픽셀은 선반 XZ 평면의 지점에 선형적으로 대응하며, 각각의 픽셀은 물리적 치수를 갖는다. 재투영은 물품 분류기에 요구되는 훈련량을 감소시키고 제품의 시각적 검출 및 분류를 단순화시킨다. 이 투영 프로세스(7204)는, 예를 들어, 하나 이상의 카메라로부터 이미지(이를테면, 이미지(7205))를 생성할 수 있다. 행동 신호(7202)가 영향받는 저장 존을 식별하기 때문에, 이 존에 대응하는 이미지(7205)의 영역(7207)이 단계(7206)에서 추출되어, 단일 물품 이미지(7208)가 산출될 수 있다. 그런 다음, 이 이미지는 분류기(6203)에 입력될 수 있으며, 이는 물품 아이덴티티(7209)를 출력한다. 하나 이상의 실시예는, 예를 들어, 라벨링된 물품 이미지에 대해 훈련된 신경망과 같은 임의의 유형의 이미지 분류기를 사용할 수 있다. 분류기(6203)는 데이터에 대해 훈련될 수 있거나, 이미지 또는 피처를 인식하도록 엔지니어링될 수 있거나, 또는 훈련된 컴포넌트와 엔지니어링된 컴포넌트의 조합을 가질 수 있다. 훈련된 분류기는, 이로 제한되는 것은 아니지만, 신경망을 포함하는 임의의 유형의 기계 학습 기술을 사용할 수 있다. 물품의 시각적 식별을 수행하는 임의의 시스템 또는 시스템들의 조합이 하나 이상의 실시예에서 분류기로서 사용될 수 있다. 그런 다음, 물품 아이덴티티(7209)는 행동에 대한 데이터(7202) 및 쇼핑객 추적에 기반한 쇼핑객 정보와 결합되어, 쇼핑객과 물품, 행동, 수량 및 시간과의 연관성(7210)을 만들 수 있다. 위에서 설명된 바와 같이, 쇼핑객 추적은, 예를 들어, 행동이 발생할 때 그리고 행동이 발생하는 물품 저장 존을 쇼핑객과 연관된 영향 볼륨의 필드가 교차하는지를 나타낸다.
[00318] 도 72b는, 상이한 카메라로부터의 이미지의 공통 전면 수직 평면에 대한 투영을 예시하는, 상점으로부터의 이미지를 도시한다. 이미지(7221 및 7222)는 상이한 2개의 카메라로부터의, 선반 유닛 뷰이다. 물품의 이미지는 이러한 이미지에서 상이한 포지션에 있고; 예를 들어, 최상단으로부터 제2 선반에 있는 맨 오른쪽 전면 물품은 이미지(7221)의 픽셀 위치(7223)에 있지만 이미지(7222)의 포지션(7224)에 있다. 이러한 이미지는 (도 72a와 관련하여 위에서 설명된 바와 같이) 선반 유닛의 전면 평면 상에 투영되어, 투영된 이미지(7231 및 7232)가 산출된다. 그런 다음, 선반 전면에 있는 제품은 두 이미지에서 동일한 픽셀 위치에 있다. 예를 들어, 최상단으로부터 제2 선반에 있는 맨 오른쪽 전면 물품은 이미지(7231 및 7232)에서 각각 동일한 위치(7233 및 7234)에 있다.
[00319] 하나 이상의 실시예에서, 쇼핑객 추적은 물품을 식별하기 위해 어떤 카메라 뷰 또는 뷰들이 사용될 수 있는지를 결정하는 데에도 또한 사용될 수 있다. 카메라가 물품 저장 구역의 전면 평면을 뷰잉하도록 위치결정 및 배향되지만, 쇼핑객이 영향받는 물품과 카메라 사이에 위치되는 경우, 쇼핑객은 뷰들 중 일부를 폐색할 수 있다. 사람 추적 프로세스(7300)는, 쇼핑객이 상점을 두루 이동할 때 쇼핑객의 위치를 추적하기 때문에, 쇼핑객의 영향 볼륨의 필드(1001)는 또한, 각각의 카메라의 관점에서 전면 평면 상에 투영될 수 있고; 이러한 투영은, 카메라가 거리/무게 감지로부터 검출된 이벤트이 시간에 걸쳐, 영향받는 물품 저장 존의 가리지 않는 뷰를 갖는다는 것을 나타낸다. 예를 들어, 카메라(7102)의 관점에서 전면 평면(7203) 상으로의 영향 볼륨의 필드(1001)의 투영(7302)은 영역(7311b)을 산출하며, 이는 물품이 제거된 물품 저장 존의 영향받는 이미지 영역(7207)을 폐색하지 않는다. 대조적으로, 카메라(7101)의 관점에서의 투영(7301)은, 영향 볼륨의 필드(1001)가 영역(7207)의 뷰를 방해하는 영역(7311a)에 투영된다는 것을 도시한다. 따라서, 이 시나리오에서, 물품 분류는 이미지(7205a)가 아닌 이미지(7205b)만을 사용할 수 있다. 일반적으로, 다수의 카메라가 다수의 상이한 관점에서 저장 구역을 관찰하도록 구성될 수 있어, 저장 구역의 전면의 적어도 폐색되지 않은 뷰가 제품을 분류하는 데 이용가능할 수 있다.
[00320] 본원에서 개시된 발명이 특정 실시예 및 이의 응용에 의해 설명되었지만, 청구항에 기재된 본 발명의 범위를 벗어나지 않고 당업자에 의해 다양한 수정 및 변경이 이루어질 수 있다.

Claims (20)

  1. 무인 상점 추적 시스템으로서,
    프로세서를 포함하며,
    상기 프로세서는,
    물품(item) 및 물품 저장 구역을 포함하는 상점의 3D 모델을 획득하고;
    상기 상점 내 복수의 카메라의 각각의 카메라로부터 시간 시퀀스의 이미지를 수신하고 ―상기 각각의 카메라로부터의 상기 시간 시퀀스의 이미지는 일정 시간 기간에 걸쳐 캡처됨―;
    상기 시간 기간 동안 상기 상점에 있는 사람의 일련의 위치를 결정하고 그리고 상기 일련의 위치의 각각의 위치 주위의 영향 볼륨의 필드(field of influence volume)를 계산하기 위해, 상기 시간 시퀀스의 이미지 및 상기 상점의 상기 3D 모델을 분석하고;
    상기 영향 볼륨의 필드가 상기 시간 기간 내의 상호작용 시간 기간 동안 상기 물품 저장 구역 중의 물품 저장 구역과 교차할 때,
    상기 물품 저장 구역을 뷰잉(view)하도록 배향된 상기 상점 내 카메라로부터 제1 이미지를 수신하고 ―상기 제1 이미지는 상기 상호작용 시간 기간의 시작 이전에 또는 시작 시에 캡처됨―;
    상기 물품 저장 구역을 뷰잉하도록 배향된 상기 상점 내 상기 카메라로부터 제2 이미지를 수신하고 ―상기 제2 이미지는 상기 상호작용 시간 기간의 종료 이후에 또는 종료 시에 캡처됨―;
    신경망의 입력을 상기 제1 이미지 및 상기 제2 이미지로 설정하고 ― 상기 신경망은, 상기 물품의 각각의 물품이 상기 상호작용 시간 기간 동안 이동되는 확률, 및 한 세트의 행동(action)의 각각의 행동이 상기 상호작용 시간 기간 동안 수행되는 확률을 출력함―;
    상기 물품 중에서, 상기 신경망의 출력에서 상기 시간 기간 동안 이동될 확률이 가장 높은 물품을 선택하고;
    상기 세트의 행동 중에서, 상기 신경망의 상기 출력에서 상기 시간 기간 동안 수행될 확률이 가장 높은 행동을 선택하고; 그리고
    상기 행동 및 상기 물품을 상기 사람에 결부(attribute)시키도록 구성되는, 무인 상점 추적 시스템.
  2. 제 1 항에 있어서,
    상기 상점 내 상기 복수의 카메라는 상기 상점의 천장에 장착된 복수의 천장 카메라를 포함하고;
    상기 시간 시퀀스의 이미지 및 상기 상점의 상기 3D 모델을 분석하는 것은,
    각각의 천장 카메라에 대응하는 시간 시퀀스의 투영된 이미지를 형성하기 위해, 각각의 천장 카메라로부터의 상기 시간 시퀀스의 이미지를 상기 상점의 바닥과 평행한 평면상에 투영하는 것;
    상기 시간 기간 동안 상기 상점에 있는 사람의 상기 일련의 위치를 결정하고 그리고 상기 일련의 위치의 각각의 위치 주위의 상기 영향 볼륨의 필드를 계산하기 위해, 각각의 천장 카메라에 대응하는 상기 시간 시퀀스의 투영된 이미지 및 상기 상점의 상기 3D 모델을 분석하는 것을 포함하는, 무인 상점 추적 시스템.
  3. 제 2 항에 있어서,
    상기 복수의 천장 카메라의 상기 각각의 천장 카메라는 어안 카메라(fisheye camera)인, 무인 상점 추적 시스템.
  4. 제 2 항에 있어서,
    상기 일련의 위치의 각각의 위치 주위의 상기 영향 볼륨의 필드는 표준화된 형상의 변환된 사본(translated copy)인, 무인 상점 추적 시스템.
  5. 제 4 항에 있어서,
    상기 표준화된 형상은 원통형을 포함하는, 무인 상점 추적 시스템.
  6. 제 2 항에 있어서,
    상기 일련의 위치의 상기 각각의 위치는 지점(point)을 포함하는, 무인 상점 추적 시스템.
  7. 제 2 항에 있어서,
    상기 시간 기간 동안 상기 상점에 있는 사람의 상기 일련의 위치를 결정하는 것은,
    각각의 천장 카메라에 대응하는 상기 시간 시퀀스의 투영된 이미지에서 매 시간 동안,
    상기 매 시간에 캡처된 상기 투영된 이미지의 각각의 투영된 이미지로부터 상점 배경 이미지를 차감하여, 상기 매 시간에 대응하는 복수의 마스크를 형성하는 것;
    상기 매 시간의 상기 복수의 마스크를 결합하여, 결합된 마스크를 형성하는 것; 및
    상기 매 시간의 상기 사람의 위치를 상기 결합된 마스크에서 높은 세기 위치로서 식별하는 것을 포함하는, 무인 상점 추적 시스템.
  8. 제 2 항에 있어서,
    상기 시간 기간 동안 상기 상점에 있는 사람의 상기 일련의 위치를 결정하는 것은,
    각각의 천장 카메라에 대응하는 상기 시간 시퀀스의 투영된 이미지에서 매 시간 동안, 상기 매 시간에 캡처된 상기 투영된 이미지를 세기 맵을 출력하는 기계 학습 시스템에 입력하는 것을 포함하고, 상기 세기 맵은, 각각의 위치에서, 사람이 상기 위치에 있을 가능성을 포함하는, 무인 상점 추적 시스템.
  9. 제 8 항에 있어서,
    상기 기계 학습 시스템은 신경망을 포함하는, 무인 상점 추적 시스템.
  10. 제 9 항에 있어서,
    상기 신경망은 완전 컨볼루션 네트워크(fully convolutional network)를 포함하는, 무인 상점 추적 시스템.
  11. 제 10 항에 있어서,
    상기 완전 컨볼루션 네트워크는,
    피처 추출 네트워크(feature extraction network)의 복수의 사본을 포함하는 제1 절반부 서브네트워크 ―상기 복수의 사본의 각각의 사본은 상기 복수의 천장 카메라의 천장 카메라에 대응하며, 상기 각각의 사본은 상기 투영된 이미지의 대응하는 투영된 이미지를 포함하는 입력 계층을 포함함―;
    상기 제1 절반부 서브네트워크에 커플링된 피처 병합 계층(feature merging layer) ―상기 피처 병합 계층은 상기 피처 추출 네트워크의 상기 복수의 사본의 출력을 평균화함―; 및
    상기 피처 병합 계층에 커플링된 제2 절반부 서브네트워크를 포함하며, 상기 제2 절반부 서브네트워크의 출력 계층은 상기 세기 맵을 포함하는, 무인 상점 추적 시스템.
  12. 제 8 항에 있어서,
    상기 시간 기간 동안 상기 상점에 있는 사람의 상기 일련의 위치를 결정하는 것은, 상기 복수의 천장 카메라의 각각의 천장 카메라에 대응하는 포지션 맵을 상기 기계 학습 시스템에 입력하는 것을 더 포함하며,
    위치에서의 상기 포지션 맵의 값은 상기 평면 상의 상기 위치와 상기 각각의 천장 카메라 사이의 거리의 함수인, 무인 상점 추적 시스템.
  13. 제 11 항에 있어서,
    상기 각각의 사본의 상기 입력 계층은 상기 사본에 대응하는 천장 카메라에 대응하는 포지션 맵을 더 포함하고,
    위치에서의 상기 포지션 맵의 값은 상기 평면 상의 상기 위치와 상기 각각의 천장 카메라 사이의 거리의 함수인, 무인 상점 추적 시스템.
  14. 제 1 항에 있어서,
    하나 이상의 모듈식 선반을 더 포함하며,
    상기 하나 이상의 모듈식 선반의 각각의 모듈식 선반은,
    상기 각각의 모듈식 선반의 바닥면에 장착된 적어도 하나의 카메라 모듈 ―상기 적어도 하나의 카메라 모듈의 각각의 카메라 모듈은 2개 이상의 하향(downward-facing) 카메라를 포함함―;
    적어도 하나의 조명 모듈 ―상기 적어도 하나의 조명 모듈의 각각의 조명 모듈은 하향 라이트(downward-facing light)를 포함함―;
    상기 각각의 모듈식 선반의 왼쪽 가장자리에 또는 상기 왼쪽 가장자리 근처에 장착된 우향(right-facing) 카메라;
    상기 각각의 모듈식 선반의 오른쪽 가장자리에 또는 상기 오른쪽 가장자리 근처에 장착되는 좌향(left-facing) 카메라;
    프로세서; 및
    네트워크 스위치를 포함하는, 무인 상점 추적 시스템.
  15. 제 14 항에 있어서,
    상기 물품 보관 구역은 상기 하나 이상의 모듈식 선반을 포함하고;
    상기 물품 보관 영역을 뷰잉하도록 배향된 상기 상점 내 상기 카메라는, 상기 물품 보관 구역 위에 위치된 상기 하나 이상의 모듈식 선반의 모듈식 선반의 상기 하향 카메라 중의 하향 카메라를 포함하는, 무인 상점 추적 시스템.
  16. 제 14 항에 있어서,
    상기 각각의 모듈식 선반은, 상기 각각의 카메라 모듈 및 상기 각각의 조명 모듈이 부착되는, 전면 레일 및 후면 레일을 포함하고;
    상기 전면 레일 및 상기 후면 레일을 따른 상기 각각의 카메라 모듈의 포지션은 조정가능하고; 그리고
    상기 전면 레일 및 상기 후면 레일을 따른 상기 각각의 조명 모듈의 포지션은 조정가능한, 무인 상점 추적 시스템.
  17. 제 14 항에 있어서,
    상기 각각의 카메라 모듈은, 상기 2개 이상의 하향 카메라가 부착되는 적어도 하나의 슬롯을 포함하고;
    상기 적어도 하나의 슬롯에 있는 상기 2개 이상의 하향 카메라의 각각의 하향 카메라의 포지션은 조정가능한, 무인 상점 추적 시스템.
  18. 제 2 항에 있어서,
    모듈식 천장을 더 포함하며,
    상기 모듈식 천장은,
    상기 상점의 상기 천장에 장착된 세로 레일(longitudinal rail);
    하나 이상의 가로 레일(transverse rail) ―상기 하나 이상의 가로 레일의 각각의 가로 레일은 상기 세로 레일에 장착됨―;
    상기 각각의 가로 레일에 장착된 하나 이상의 통합형 조명-카메라 모듈을 포함하며,
    상기 하나 이상의 통합형 조명-카메라 모듈의 각각의 통합형 조명-카메라 모듈은,
    중앙 구역을 둘러싸는 조명 엘리먼트; 및
    상기 중앙 구역에 장착된 상기 복수의 천장-장착 카메라 중 2개 이상의 천장-장착 카메라를 포함하는, 무인 상점 추적 시스템.
  19. 제 18 항에 있어서,
    상기 세로 레일을 따른 상기 각각의 가로 레일의 포지션은 조정가능하고;
    상기 각각의 가로 레일을 따른 상기 각각의 통합형 조명-카메라 모듈의 포지션은 조정가능하고;
    상기 중앙 구역은, 상기 2개 이상의 천장-장착 카메라가 부착되는 적어도 하나의 슬롯을 포함하는 카메라 모듈을 포함하고; 그리고
    상기 적어도 하나의 슬롯에 있는 상기 2개 이상의 천장-장착 카메라의 각각의 천장-장착 카메라의 포지션은 조정가능한, 무인 상점 추적 시스템.
  20. 무인 상점 추적 시스템으로서,
    상점 내 모듈식 천장;
    상기 상점 내 하나 이상의 모듈식 선반; 및
    프로세서를 포함하며,
    상기 모듈식 천장은,
    상기 상점의 천장에 장착된 세로 레일;
    하나 이상의 가로 레일 ―상기 하나 이상의 가로 레일의 각각의 가로 레일은 상기 세로 레일에 장착됨―;
    상기 각각의 가로 레일에 장착된 하나 이상의 통합형 조명-카메라 모듈을 포함하며,
    상기 하나 이상의 통합형 조명-카메라 모듈의 각각의 통합형 조명-카메라 모듈은,
    중앙 구역을 둘러싸는 조명 엘리먼트; 및
    상기 중앙 구역에 장착된 상기 상점의 복수의 천장-장착 카메라 중 2개 이상의 천장-장착 카메라를 포함하며,
    상기 세로 레일을 따른 상기 각각의 가로 레일의 포지션은 조정가능하고;
    상기 각각의 가로 레일을 따른 상기 각각의 통합형 조명-카메라 모듈의 포지션은 조정가능하고;
    상기 중앙 구역은 상기 2개 이상의 천장-장착 카메라가 부착되는 적어도 하나의 슬롯을 포함하는 카메라 모듈을 포함하고; 그리고
    상기 적어도 하나의 슬롯에 있는 상기 2개 이상의 천장-장착 카메라의 각각의 천장-장착 카메라의 포지션은 조정가능하고;
    상기 하나 이상의 모듈식 선반의 각각의 모듈식 선반은,
    상기 각각의 모듈식 선반의 바닥면에 장착된 적어도 하나의 카메라 모듈 ―상기 적어도 하나의 카메라 모듈의 각각의 카메라 모듈은 2개 이상의 하향 카메라를 포함함―;
    적어도 하나의 조명 모듈 ―상기 적어도 하나의 조명 모듈의 각각의 조명 모듈은 하향 라이트를 포함함―;
    상기 각각의 모듈식 선반의 왼쪽 가장자리에 또는 상기 왼쪽 가장자리 근처에 장착된 우향 카메라;
    상기 각각의 모듈식 선반의 오른쪽 가장자리에 또는 상기 오른쪽 가장자리 근처에 장착되는 좌향 카메라;
    프로세서; 및
    네트워크 스위치를 포함하며,
    상기 각각의 모듈식 선반은 상기 상점에 있는 하나 이상의 물품에 대한 물품 저장 구역이고;
    상기 각각의 모듈식 선반은, 상기 각각의 카메라 모듈 및 상기 각각의 조명 모듈이 부착되는, 전면 레일 및 후면 레일을 포함하고;
    상기 전면 레일 및 상기 후면 레일을 따른 상기 각각의 카메라 모듈의 포지션은 조정가능하고;
    상기 전면 레일 및 상기 후면 레일을 따른 상기 각각의 조명 모듈의 포지션은 조정가능하고;
    상기 각각의 카메라 모듈은 상기 2개 이상의 하향 카메라가 부착되는 적어도 하나의 슬롯을 포함하고; 그리고
    상기 적어도 하나의 슬롯에 있는 상기 2개 이상의 하향 카메라의 각각의 하향 카메라의 포지션은 조정가능하고,
    상기 프로세서는,
    상기 상점의 3D 모델을 획득하고;
    상기 복수의 천장-장착 카메라의 각각의 카메라로부터 시간 시퀀스의 이미지를 수신하고 ―각각의 카메라로부터의 상기 시간 시퀀스의 이미지는 일정 시간 기간에 걸쳐 캡처됨―;
    각각의 천장 카메라에 대응하는 시간 시퀀스의 투영된 이미지를 형성하기 위해, 각각의 천장 카메라로부터의 상기 시간 시퀀스의 이미지를 상기 상점의 바닥과 평행한 평면상에 투영하고;
    상기 시간 기간 동안 상기 상점에 있는 사람의 일련의 위치를 결정하고 그리고 상기 일련의 위치의 각각의 위치 주위의 영향 볼륨의 필드를 계산하기 위해, 각각의 천장 카메라에 대응하는 상기 시간 시퀀스의 투영된 이미지 및 상기 상점의 상기 3D 모델을 분석하고;
    상기 영향 볼륨의 필드가 상기 시간 기간 내의 상호작용 시간 기간 동안 상기 물품 저장 구역 중의 물품 저장 구역과 교차할 때,
    상기 물품 저장 구역을 뷰잉하도록 배향된 상기 상점 내 카메라로부터 제1 이미지를 수신하고 ―상기 제1 이미지는 상기 상호작용 시간 기간의 시작 이전에 또는 시작 시에 캡처됨―;
    상기 물품 저장 구역을 뷰잉하도록 배향된 상기 상점 내 상기 카메라로부터 제2 이미지를 수신하고 ―상기 제2 이미지는 상기 상호작용 시간 기간의 종료 이후에 또는 종료시에 캡처됨―;
    신경망의 입력을 상기 제1 이미지 및 상기 제2 이미지로 설정하고 ― 상기 신경망은, 상기 물품의 각각의 물품이 상기 상호작용 시간 기간 동안 이동되는 확률, 및 한 세트의 행동의 각각의 행동이 상기 상호작용 시간 기간 동안 수행되는 확률을 출력함―;
    상기 물품 중에서, 상기 신경망의 출력에서 상기 시간 기간 동안 이동될 확률이 가장 높은 물품을 선택하고;
    상기 세트의 행동 중에서, 상기 신경망의 상기 출력에서 상기 시간 기간 동안 수행될 확률이 가장 높은 행동을 선택하고; 그리고
    상기 행동 및 상기 물품을 상기 사람에 결부시키도록 구성되는, 무인 상점 추적 시스템.
KR1020217004538A 2018-07-16 2019-07-16 자율 매장 추적 시스템 KR20210055038A (ko)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US16/036,754 US10373322B1 (en) 2018-07-16 2018-07-16 Autonomous store system that analyzes camera images to track people and their interactions with items
US16/036,754 2018-07-16
US16/138,278 2018-09-21
US16/138,278 US10282720B1 (en) 2018-07-16 2018-09-21 Camera-based authorization extension system
US16/254,776 2019-01-23
US16/254,776 US10282852B1 (en) 2018-07-16 2019-01-23 Autonomous store tracking system
US16/404,667 2019-05-06
US16/404,667 US10535146B1 (en) 2018-07-16 2019-05-06 Projected image item tracking system
PCT/US2019/042071 WO2020018585A1 (en) 2018-07-16 2019-07-16 Autonomous store tracking system
US16/513,509 2019-07-16
US16/513,509 US10586208B2 (en) 2018-07-16 2019-07-16 Smart shelf system that integrates images and quantity sensors

Publications (1)

Publication Number Publication Date
KR20210055038A true KR20210055038A (ko) 2021-05-14

Family

ID=69139183

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217004538A KR20210055038A (ko) 2018-07-16 2019-07-16 자율 매장 추적 시스템

Country Status (5)

Country Link
US (2) US10586208B2 (ko)
KR (1) KR20210055038A (ko)
AU (1) AU2019308228B2 (ko)
CA (1) CA3109571A1 (ko)
WO (1) WO2020018585A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230022595A (ko) * 2021-08-09 2023-02-16 양주섭 무인 매장 내 장치의 효율적인 정보 송수신 방법, 및 효율적인 정보 송수신을 위한 무인 매장 시스템
KR20230022596A (ko) * 2021-08-09 2023-02-16 양주섭 인공지능 기반의 영상 분석 모델을 이용하여 무인 매장 고객의 행동 패턴을 분석하는 방법 및 장치
KR20230022598A (ko) * 2021-08-09 2023-02-16 양주섭 인공지능 모델을 이용하여 분석된 무인 매장 고객 행동 분석 결과를 표현하는 방법 및 장치, 그리고 시스템

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11747430B2 (en) * 2014-02-28 2023-09-05 Tyco Fire & Security Gmbh Correlation of sensory inputs to identify unauthorized persons
US11593755B2 (en) * 2016-05-19 2023-02-28 Simbe Robotics, Inc. Method for stock keeping in a store with fixed cameras
US11049373B2 (en) * 2017-08-25 2021-06-29 Nec Corporation Storefront device, storefront management method, and program
JP7003628B2 (ja) * 2017-12-19 2022-01-20 富士通株式会社 物体追跡プログラム、物体追跡装置、及び物体追跡方法
US11057573B2 (en) 2017-12-20 2021-07-06 Texas Instruments Incorporated Multi camera image processing
CN109941647A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 自动调节智能货架及其货物存储方法以及无人物流***
KR102128336B1 (ko) * 2018-04-26 2020-06-30 한국전자통신연구원 3차원 영상 왜곡 보정 장치 및 방법
CN108805495A (zh) * 2018-05-31 2018-11-13 京东方科技集团股份有限公司 物品存放管理方法和***及计算机可读介质
US10535146B1 (en) * 2018-07-16 2020-01-14 Accel Robotics Corporation Projected image item tracking system
US10789720B1 (en) * 2019-10-25 2020-09-29 7-Eleven, Inc. Multi-camera image tracking on a global plane
US11030756B2 (en) * 2018-10-26 2021-06-08 7-Eleven, Inc. System and method for position tracking using edge computing
US11176686B2 (en) * 2019-10-25 2021-11-16 7-Eleven, Inc. Image-based action detection using contour dilation
US11107226B2 (en) 2019-10-25 2021-08-31 7-Eleven, Inc. Object re-identification during image tracking
US10943128B2 (en) * 2018-11-01 2021-03-09 Ncr Corporation Constructing shopper carts using video surveillance
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
WO2020104499A1 (en) * 2018-11-20 2020-05-28 Deepmind Technologies Limited Action classification in video clips using attention-based neural networks
LU101007B1 (en) * 2018-11-26 2020-05-26 Metamorphosis Gmbh Artificial-intelligence based reduction support
EP3667557B1 (en) * 2018-12-13 2021-06-16 Axis AB Method and device for tracking an object
EP3909010A4 (en) * 2019-01-11 2022-10-05 Apex Industrial Technologies LLC ISSUE AND TRACKING SYSTEM
CN109961019B (zh) * 2019-02-28 2021-03-26 华中科技大学 一种时空行为检测方法
US11087489B2 (en) * 2019-06-03 2021-08-10 Disney Enterprises, Inc. Systems and methods to facilitate interaction by one or more participants with content presented across multiple distinct physical locations
US11580785B1 (en) * 2019-06-10 2023-02-14 Amazon Technologies, Inc. Detecting interactions with non-discretized items and associating interactions with actors using digital images
US11055861B2 (en) 2019-07-01 2021-07-06 Sas Institute Inc. Discrete event simulation with sequential decision making
US10791271B1 (en) * 2019-07-17 2020-09-29 Alibaba Group Holding Limited Obtaining stable frames
US11308547B2 (en) * 2019-08-29 2022-04-19 Ncr Corporation Method and system for generating a store planogram and identifying a suspect customer
CN112466035B (zh) * 2019-09-06 2022-08-12 图灵通诺(北京)科技有限公司 基于视觉和重力感应的商品识别方法、装置和***
US11587243B2 (en) * 2019-10-25 2023-02-21 7-Eleven, Inc. System and method for position tracking using edge computing
US11023740B2 (en) 2019-10-25 2021-06-01 7-Eleven, Inc. System and method for providing machine-generated tickets to facilitate tracking
US11308682B2 (en) * 2019-10-28 2022-04-19 Apical Limited Dynamic stereoscopic rendering method and processor
US11030763B1 (en) 2019-12-06 2021-06-08 Mashgin Inc. System and method for identifying items
US11403734B2 (en) 2020-01-07 2022-08-02 Ademco Inc. Systems and methods for converting low resolution images into high resolution images
US11093736B1 (en) * 2020-01-24 2021-08-17 Synchrony Bank Systems and methods for machine vision based object recognition
US11710247B2 (en) 2020-01-30 2023-07-25 Unity Technologies Sf System for image compositing including training with synthetic data
US11676252B2 (en) 2020-01-31 2023-06-13 Unity Technologies Sf Image processing for reducing artifacts caused by removal of scene elements from images
JP7349923B2 (ja) * 2020-02-03 2023-09-25 東芝テック株式会社 取引処理システム
US11694501B2 (en) 2020-02-17 2023-07-04 True Manufacturing Co., Inc. Refrigerated vending system and method
CN111325822B (zh) * 2020-02-18 2022-09-06 腾讯科技(深圳)有限公司 热点图的显示方法、装置、设备及可读存储介质
US11436827B1 (en) * 2020-02-25 2022-09-06 Tp Lab, Inc. Location tracking system using a plurality of cameras
US11537924B2 (en) * 2020-02-27 2022-12-27 Here Global B.V. Systems and methods for reconstructing a trajectory from anonymized data
US20210274091A1 (en) 2020-02-28 2021-09-02 Weta Digital Limited Reconstruction of obscured views of captured imagery using arbitrary captured inputs
US20210274092A1 (en) 2020-02-28 2021-09-02 Weta Digital Limited Reconstruction of obscured views in captured imagery using pixel replacement from secondary imagery
US11694313B2 (en) * 2020-02-28 2023-07-04 Unity Technologies Sf Computer-generated image processing including volumetric scene reconstruction
US20210398097A1 (en) * 2020-03-09 2021-12-23 Yi Tunnel (Beijing) Technology Co., Ltd. Method, a device and a system for checkout
RU199701U1 (ru) * 2020-04-06 2020-09-15 Общество с ограниченной ответственностью «НЕЙРОРоботикс» Интеллектуальный программно-аппаратный модуль «Сортировщик»
CN113543446A (zh) * 2020-04-13 2021-10-22 台达电子工业股份有限公司 电源产生器的点火方法
US11335112B2 (en) * 2020-04-27 2022-05-17 Adernco Inc. Systems and methods for identifying a unified entity from a plurality of discrete parts
US11978328B2 (en) 2020-04-28 2024-05-07 Ademco Inc. Systems and methods for identifying user-customized relevant individuals in an ambient image at a doorbell device
CN111506081B (zh) * 2020-05-15 2021-06-25 中南大学 一种机器人轨迹跟踪方法、***及存储介质
WO2021237153A1 (en) * 2020-05-21 2021-11-25 Board Of Trustees Of Michigan State University Systems and methods for annotating image sequences with landmarks
CN111693016A (zh) * 2020-05-26 2020-09-22 安庆市凯瑞建材有限公司 一种用于快速精确测量匀质防火保温板密度的装置
CA3177901C (en) * 2020-06-01 2024-01-02 Ido Merkado Systems and methods for retail environments
JP6935545B1 (ja) * 2020-06-18 2021-09-15 三菱電機ビルテクノサービス株式会社 人物追跡支援装置および人物追跡支援システム
US11303853B2 (en) * 2020-06-26 2022-04-12 Standard Cognition, Corp. Systems and methods for automated design of camera placement and cameras arrangements for autonomous checkout
KR102438712B1 (ko) * 2020-07-02 2022-09-01 주식회사 엘지유플러스 3d 공간 모델링 데이터 생성 서버 및 그 제어방법
US11971957B2 (en) 2020-08-08 2024-04-30 Analog Devices International Unlimited Company Aggregating sensor profiles of objects
US20220068037A1 (en) * 2020-08-31 2022-03-03 Nvidia Corporation Image generation using one or more neural networks
US20220108478A1 (en) * 2020-10-02 2022-04-07 Google Llc Processing images using self-attention based neural networks
WO2022115845A1 (en) * 2020-11-25 2022-06-02 7-Eleven, Inc. System and method for providing machine-generated tickets to facilitate tracking
CN112363629B (zh) * 2020-12-03 2021-05-28 深圳技术大学 一种新的非接触式人机交互方法及***
JP2022149539A (ja) * 2021-03-25 2022-10-07 東芝テック株式会社 情報処理装置、プログラム、および行動分析システム
US20220327511A1 (en) * 2021-04-07 2022-10-13 Vcognition, Inc. System and method for acquiring training data of products for automated checkout
US11611707B2 (en) * 2021-05-24 2023-03-21 Anduril Industries, Inc. Auto-focus tracking for remote flying targets
US20240169735A1 (en) * 2021-06-30 2024-05-23 Infilect Technologies Private Limited System and method for preventing shrinkage in a retail environment using real time camera feeds
WO2023007459A2 (en) * 2021-07-29 2023-02-02 Havasi Laszlo Rajmund Modular smart refrigerator apparatus
CN113727029B (zh) * 2021-11-03 2022-03-18 武汉星巡智能科技有限公司 多视角采集图像后合并的智能生成订单方法及智能售货机
US20230305630A1 (en) * 2022-03-28 2023-09-28 Google Llc Universal hand controller
US20230370579A1 (en) * 2022-05-12 2023-11-16 AiFi Corp Methods of visual camera planning
US20240112136A1 (en) * 2022-09-29 2024-04-04 NOMAD Go, Inc. Methods and apparatus for machine learning system for edge computer vision and active reality
DE202023105955U1 (de) * 2022-10-02 2024-01-24 Xtend Ai Inc. Robotervorrichtung zur Verteilung bestimmter Artikel
DE102022131352A1 (de) 2022-11-28 2024-05-29 Schaeffler Technologies AG & Co. KG Verfahren zur Steuerung eines mit einem Menschen kollaborierenden Roboters und System mit einem kollaborativen Roboter
CN116304176B (zh) * 2023-05-19 2023-08-22 江苏苏宁银行股份有限公司 基于实时数据中台的处理方法及处理***

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1004492A (en) 1908-12-14 1911-09-26 Simmons Pipe Bending Works Pipe-flanging machine.
US1013393A (en) 1911-06-03 1912-01-02 Sure Seal Company Closure for bottles, jars, and other receptacles.
US1005585A (en) 1911-08-08 1911-10-10 William Vogt Cushion-heel.
US1012743A (en) 1911-09-15 1911-12-26 Ole O Storle Violin.
US5016035A (en) 1989-08-28 1991-05-14 Myles Jr Robert E Enclosed self-portrait photographic studio with camera located behind one-way mirror
US6193154B1 (en) 1994-08-24 2001-02-27 The Coca-Cola Company Method and apparatus for vending goods in conjunction with a credit card accepting fuel dispensing pump
US6882900B1 (en) 1997-09-26 2005-04-19 Gilbarco Inc. Fuel dispensing and retail system for providing customer selected guidelines and limitations
US6364206B1 (en) 2000-01-19 2002-04-02 Marconi Commerce Systems Inc. Lottery ticket sales in fueling forecourt
US6507279B2 (en) 2001-06-06 2003-01-14 Sensormatic Electronics Corporation Complete integrated self-checkout system and method
US7436887B2 (en) 2002-02-06 2008-10-14 Playtex Products, Inc. Method and apparatus for video frame sequence-based object tracking
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
US20060064308A1 (en) 2004-09-02 2006-03-23 Oliver Foehr Method, device and system for a machine-readable code enabled device enabling E-commerce transactions
US20050093690A1 (en) * 2003-09-11 2005-05-05 Joseph Miglionico Pressure-detection device and method
US7262783B2 (en) 2004-03-03 2007-08-28 Virtual Iris Studios, Inc. System for delivering and enabling interactivity with images
WO2006012645A2 (en) 2004-07-28 2006-02-02 Sarnoff Corporation Method and apparatus for total situational awareness and monitoring
US7418197B2 (en) 2004-12-01 2008-08-26 Alpha Photography Inc. Back light screen for chroma-key photography
US20080166111A1 (en) 2004-12-01 2008-07-10 Richard Didow Back Light Screen for Chroma-Key Photography
CN101356108B (zh) 2006-01-12 2012-12-12 奥蒂斯电梯公司 视频辅助电梯控制***
EP1811457A1 (en) 2006-01-20 2007-07-25 BRITISH TELECOMMUNICATIONS public limited company Video signal analysis
US20070282665A1 (en) 2006-06-02 2007-12-06 Buehler Christopher J Systems and methods for providing video surveillance data
US8239268B2 (en) 2006-06-20 2012-08-07 Toshiba Tec Kabushiki Kaisha Self-checkout terminal
US20080181507A1 (en) 2007-01-29 2008-07-31 Intellivision Technologies Corp. Image manipulation for videos and still images
US8300890B1 (en) 2007-01-29 2012-10-30 Intellivision Technologies Corporation Person/object image and screening
US9064161B1 (en) 2007-06-08 2015-06-23 Datalogic ADC, Inc. System and method for detecting generic items in image sequence
US8036425B2 (en) 2008-06-26 2011-10-11 Billy Hou Neural network-controlled automatic tracking and recognizing system and method
US20100150536A1 (en) 2008-09-26 2010-06-17 Ryckman Lawrence G Lighting system for audio visual recording booth
JP5222785B2 (ja) 2009-05-25 2013-06-26 パナソニック株式会社 カメラ装置および色補正方法
US8474711B2 (en) 2009-12-16 2013-07-02 Wal-Mart Stores, Inc. Interactive customer shopping cart
US8260127B2 (en) 2010-02-26 2012-09-04 Robert Reno Lighting modifiable photo booth with external process control
JP5269002B2 (ja) 2010-06-28 2013-08-21 株式会社日立製作所 カメラ配置決定支援装置
US20120011540A1 (en) 2010-07-07 2012-01-12 Pulford James T System & method for implementing an interactive media kiosk network
US9544543B2 (en) 2011-02-11 2017-01-10 Tangome, Inc. Augmenting a video conference
US8665307B2 (en) 2011-02-11 2014-03-04 Tangome, Inc. Augmenting a video conference
GB201102794D0 (en) 2011-02-17 2011-03-30 Metail Ltd Online retail system
US8941707B2 (en) 2011-12-01 2015-01-27 Tangome, Inc. Video messaging
US8767034B2 (en) 2011-12-01 2014-07-01 Tangome, Inc. Augmenting a video conference
US9747480B2 (en) 2011-12-05 2017-08-29 Adasa Inc. RFID and robots for multichannel shopping
US8823807B2 (en) 2011-12-09 2014-09-02 Robert Schinker Methods and apparatus for enhanced reality messaging
US9264627B2 (en) 2012-01-09 2016-02-16 Lifetouch Inc. Video photography system
US9530060B2 (en) 2012-01-17 2016-12-27 Avigilon Fortress Corporation System and method for building automation using video content analysis with depth sensing
WO2013124910A1 (ja) 2012-02-21 2013-08-29 パナソニック株式会社 コンテンツ表示システム
US9779546B2 (en) 2012-05-04 2017-10-03 Intermec Ip Corp. Volume dimensioning systems and methods
US9911222B2 (en) 2012-07-06 2018-03-06 Tangome, Inc. Animation in threaded conversations
US10049281B2 (en) 2012-11-12 2018-08-14 Shopperception, Inc. Methods and systems for measuring human interaction
US20140258110A1 (en) 2013-03-11 2014-09-11 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9830588B2 (en) 2013-02-26 2017-11-28 Digimarc Corporation Methods and arrangements for smartphone payments
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US20140244514A1 (en) 2013-02-26 2014-08-28 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
JP5632512B1 (ja) 2013-07-02 2014-11-26 パナソニック株式会社 人物行動分析装置、人物行動分析システムおよび人物行動分析方法、ならびに監視装置
US10290031B2 (en) 2013-07-24 2019-05-14 Gregorio Reid Method and system for automated retail checkout using context recognition
DK2860582T3 (da) 2013-10-14 2021-01-18 Photo Me Int Plc System til optagelse af fotografiske portrætter
JP5928839B2 (ja) 2013-12-19 2016-06-01 フリュー株式会社 画像処理装置および画像処理方法
WO2015109170A2 (en) 2014-01-16 2015-07-23 Automaton, Inc. Systems and methods for rfid-based retail management
US20150294496A1 (en) * 2014-04-14 2015-10-15 GM Global Technology Operations LLC Probabilistic person-tracking using multi-view fusion
US9251598B2 (en) * 2014-04-10 2016-02-02 GM Global Technology Operations LLC Vision-based multi-camera factory monitoring with dynamic integrity scoring
US9613298B2 (en) 2014-06-02 2017-04-04 Microsoft Technology Licensing, Llc Tracking using sensor data
US9823059B2 (en) 2014-08-06 2017-11-21 Hand Held Products, Inc. Dimensioning system with guided alignment
US10664705B2 (en) 2014-09-26 2020-05-26 Nec Corporation Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium
US9996818B1 (en) 2014-12-19 2018-06-12 Amazon Technologies, Inc. Counting inventory items using image analysis and depth information
US20160358145A1 (en) 2015-06-05 2016-12-08 Yummy Foods, Llc Systems and methods for frictionless self-checkout merchandise purchasing
GB2542998A (en) 2015-07-07 2017-04-05 Ceccon Stefano Systems, devices, and/or methods for managing transactions
US9911290B1 (en) 2015-07-25 2018-03-06 Gary M. Zalewski Wireless coded communication (WCC) devices for tracking retail interactions with goods and association to user accounts
KR101679398B1 (ko) 2015-08-10 2016-11-28 김제형 3차원 스튜디오 시스템
US9852596B2 (en) 2015-08-17 2017-12-26 Tyco Fire & Security Gmbh Security tag and method of using same to facilitate authorized removal of inventory items from controlled areas
US20170083884A1 (en) 2015-09-21 2017-03-23 Rami VILMOSH System and method for automatic identification of products
EP3154008B1 (en) 2015-10-09 2017-12-20 Pricer AB Determination of a product position along a fixture
JP6968399B2 (ja) 2016-02-29 2021-11-17 サインポスト株式会社 情報処理システム
WO2017175707A1 (ja) * 2016-04-06 2017-10-12 日本電気株式会社 物体種類特定装置、物体種類特定方法及び記録媒体
US9886827B2 (en) 2016-04-25 2018-02-06 Bernd Schoner Registry verification for a mechanized store
WO2017196822A1 (en) 2016-05-09 2017-11-16 Grabango Co. System and method for computer vision driven applications within an environment
US20180046975A1 (en) * 2016-08-11 2018-02-15 Wal-Mart Stores, Inc. Sensor-based item management tool
US10213134B2 (en) 2016-08-18 2019-02-26 Timothy W. Markison Wireless in-shoe physical activity monitoring implementation
WO2018071476A1 (en) * 2016-10-14 2018-04-19 Wal-Mart Stores, Inc. Systems and methods for controlling a display of content in a retail store
US10157308B2 (en) 2016-11-30 2018-12-18 Whirlpool Corporation Interaction recognition and analysis system
US11068949B2 (en) 2016-12-09 2021-07-20 365 Retail Markets, Llc Distributed and automated transaction systems
US10634506B2 (en) * 2016-12-12 2020-04-28 Position Imaging, Inc. System and method of personalized navigation inside a business enterprise
US20180225625A1 (en) * 2017-02-06 2018-08-09 Cornelius, Inc. Inventory Management System and Method
JP6890996B2 (ja) 2017-02-17 2021-06-18 東芝テック株式会社 チェックアウト装置およびプログラム
US10326943B2 (en) 2017-03-29 2019-06-18 Ncr Corporation Overhead camera synchronization
US10127438B1 (en) * 2017-08-07 2018-11-13 Standard Cognition, Corp Predicting inventory events using semantic diffing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230022595A (ko) * 2021-08-09 2023-02-16 양주섭 무인 매장 내 장치의 효율적인 정보 송수신 방법, 및 효율적인 정보 송수신을 위한 무인 매장 시스템
KR20230022596A (ko) * 2021-08-09 2023-02-16 양주섭 인공지능 기반의 영상 분석 모델을 이용하여 무인 매장 고객의 행동 패턴을 분석하는 방법 및 장치
KR20230022598A (ko) * 2021-08-09 2023-02-16 양주섭 인공지능 모델을 이용하여 분석된 무인 매장 고객 행동 분석 결과를 표현하는 방법 및 장치, 그리고 시스템

Also Published As

Publication number Publication date
US10783491B2 (en) 2020-09-22
AU2019308228A1 (en) 2021-03-11
US10586208B2 (en) 2020-03-10
AU2019308228B2 (en) 2021-06-03
US20200202288A1 (en) 2020-06-25
WO2020018585A1 (en) 2020-01-23
US20200019921A1 (en) 2020-01-16
CA3109571A1 (en) 2020-01-23

Similar Documents

Publication Publication Date Title
US10783491B2 (en) Camera-based tracking and authorization extension system
JP6764547B1 (ja) カメラを用いた追跡及び許可延長システム
US11106941B2 (en) System having a bar of relocatable distance sensors that detect stock changes in a storage area
US10282852B1 (en) Autonomous store tracking system
US10282720B1 (en) Camera-based authorization extension system
JP2020115344A6 (ja) 自律店舗追跡システム
US10909694B2 (en) Sensor bar shelf monitor
US11394927B2 (en) Store device network that transmits power and data through mounting fixtures
US20220230216A1 (en) Smart shelf that combines weight sensors and cameras to identify events
US20210272086A1 (en) Automated vending case with an integrated credential reader
US20210158430A1 (en) System that performs selective manual review of shopping carts in an automated store
US10373322B1 (en) Autonomous store system that analyzes camera images to track people and their interactions with items
US20210049772A1 (en) Automated store that tracks shoppers who exit a vehicle
CN109089082B (zh) 一种基于热特性图像的图像采集***
US10290031B2 (en) Method and system for automated retail checkout using context recognition
US11069070B2 (en) Self-cleaning autonomous store
US20180293442A1 (en) Apparatus, methods and computer products for video analytics
US20210124941A1 (en) System and method for providing machine-generated tickets to facilitate tracking
US11836957B2 (en) Event trigger based on region-of-interest near hand-shelf interaction
JP2024037466A (ja) 情報処理システム、情報処理方法及びプログラム