KR102296274B1

KR102296274B1 - 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법

Info

Publication number: KR102296274B1
Application number: KR1020200139593A
Authority: KR
Inventors: 전정희
Original assignee: 주식회사 보고넷
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-09-01

Abstract

사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법이 제공되며, 기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득하는 단계, 딥러닝 모델에서 객체 인식의 결과가 정상 또는 비정상으로 출력되는 이미지를 사용자 단말로부터 선별받는 단계, 정상으로 선별된 이미지를 이용하여 딥러닝 모델을 추가 학습시키는 단계 및 추가 학습된 딥러닝 모델을 객체 인식에 적용하는 단계를 포함한다.

Description

사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법{METHOD FOR PROVIDING OBJECT RECOGNITION WITH DEEP LEARNING USING FINE TUNING BY USER}

본 발명은 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법에 관한 것으로, 실제 CCTV가 설치된 환경에 맞게 객체가 아닌 기타 물체 또는 환경으로 오인식 및 오탐지된 이미지를 제거하여 재학습시킴으로써 전문가의 커스터마이징 없이도 사용자가 스스로 딥러닝 모델을 미세조정할 수 있는 방법을 제공한다.

최근 사회 안전에 대한 관심이 증가함에 따라 침입자 탐지, 화재 탐지 등 안전예방을 위한 방법으로 가장 보편적인 사례는 CCTV 사용 이라고 할 수 있다. 이러한 실시간 CCTV 영상 데이터와 영상처리 및 컴퓨터 비전 기술을 접목하여 보다 정확한 위험상황을 탐지할 수 있을 것으로 예상된다. 입력 영상으로 부터 특정 객체를 인식, 검출하기 위한 방법으로 특징점 기반의 알고리즘이 주로 사용되었지만 최근 그래픽 처리 장치(GPU)의 성능이 증가되고 딥러닝 기술이 크게 발전함에 따라 딥러닝 모델을 사용한 객체 인식, 검출 성능이 특징점 기반 알고리즘의 성능을 크게 넘어서게 되었다. 딥러닝을 이용한 실시간 객체 검출기에는 대표적으로 R-CNN(Regions with CNN features)과 YOLO 객체 검출기가 존재한다. R-CNN의 경우 높은 mAP(mean Average Precision)를 보이는 반면 전처리 과정에서 연산량이 많아 속도가 느린 단점이 있고, YOLO 객체 검출기의 경우 R-CNN 보다 mAP는 낮지만 초당 프레임 처리속도 FPS(Frame Per Second)가 높아 실시간 객체 검출에 적합하다.

이때, 지능형 CCTV에서 딥러닝 모델을 이용하여 객체를 인식하는 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국공개특허 제2020-0074503호(2020년06월25일 공개) 및 한국등록특허 제10-2143029호(2020년08월10일 공고)에는, 학습부가 객체, 불꽃, 연기 카테고리로 분류되는 샘플 이미지를 통해 기계학습을 수행하고, CCTV 기능할당부가 건물내에 설치된 다수개의 CCTV 각각에 서로 객체인식, 불꽃인식, 연기인식 중 적어도 하나의 기능을 할당하고, 영상수신부가 다수개의 CCTV들로부터 영상을 수신하며, 영상처리부가 학습된 모델에 기초하여 수신된 영상으로부터 객체, 불꽃, 연기 중 적어도 하나를 인식하는 구성과, 객체가 이동하는 구역에 설치되어 해당 구역의 객체를 촬영하는 감시 카메라부, 감시 카메라부에 영된 객체의 영상 정보를 기초로 하여 딥러닝 기반의 기계학습을 통하여 객체의 인식정보를 분석하는 AI 엔진부 및 엔진부에 의하여 분석된 객체의 인식정보를 기초로 객체별 기초 정보 및 현황 정보로 데이터베이스화하고 통합관리하는 구성이 각각 개시되어 있다.

다만, 상술한 딥러닝 기반 지능형 CCTV 분석 솔루션은 분석 서버에서 사물인식을 위한 딥러닝 모델을 탑재하여 실시간 분석 후 결과를 송부하지만, 실제 현장에서 CCTV의 설치환경, 즉 설치 높이, 각도, 주변 조명, 야외 환경 등이 일관적이지 않기 때문에, 화면의 배경을 객체로 오인식 및 오탐지하는 등 분석 정확도의 편차가 크다. 또, 한 번 설정된 딥러닝 모델의 파라미터는 임의로 수정하지 못하기 때문에 현장 데이터들을 어노테이션(Annotation) 후 재학습을 진행함으로써 딥러닝 모델을 수정해야 한다. 하지만 이러한 과정은 전문가가 아닌 일반인, 즉 사용자가 진행하기 불가능하고, 별도로 수정을 하는 경우 커스터마이징 비용이 매 번 발생하기 때문에 지능형 CCTV의 만족도가 급격하게 떨어지고 있다. 이에, 고객인 사용자가 스스로 지능형 CCTV에 적용된 딥러닝 모델의 성능을 높일 수 있는 방법의 연구 및 개발이 요구된다.

본 발명의 일 실시예는, 지능형 CCTV 분석 솔루션에서 딥러닝 모델을 이용한 객체 인식과 함께 전문가가 아닌 일반인이라도 서로 다른 환경을 가지는 현장의 외부 환경 적용을 위한 파인 튜닝(Fine Tuning)을 기본 기능으로 추가함으로써, 객체가 아닌 다른 사물이나 주변 환경을 오인식 및 오탐지 할 확률을 줄이면서도 정확도를 크게 향상할 수 있고, 파인 튜닝 프로세스를 시스템 내에 탑재하여 사용자가 사물의 이미지를 간단히 선택하는 것 만으로도 딥러닝 모델의 파인 튜닝을 가능케하고 사용자의 감성품질 및 만족도를 상승시킬 수 있는, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득하는 단계, 딥러닝 모델에서 객체 인식의 결과가 정상 또는 비정상으로 출력되는 이미지를 사용자 단말로부터 선별받는 단계, 정상으로 선별된 이미지를 이용하여 딥러닝 모델을 추가 학습시키는 단계 및 추가 학습된 딥러닝 모델을 객체 인식에 적용하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 지능형 CCTV 분석 솔루션에서 딥러닝 모델을 이용한 객체 인식과 함께 전문가가 아닌 일반인이라도 서로 다른 환경을 가지는 현장의 외부 환경 적용을 위한 파인 튜닝(Fine Tuning)을 기본 기능으로 추가함으로써, 객체가 아닌 다른 사물이나 주변 환경을 오인식 및 오탐지 할 확률을 줄이면서도 정확도를 크게 향상할 수 있고, 파인 튜닝 프로세스를 시스템 내에 탑재하여 사용자가 사물의 이미지를 간단히 선택하는 것 만으로도 딥러닝 모델의 파인 튜닝을 가능케하고 사용자의 감성품질 및 만족도를 상승시킬 수 있고, 현장 데이터를 직접 어노테이션하고 학습을 진행한 후 딥러닝 모델을 파인 튜닝할 수 있도록 하는 프로세스도 추가로 탑재함으로써 사용성을 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 객체 인식 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체 지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 시스템(1)은, 적어도 하나의 사용자 단말(100), 객체 인식 서비스 제공 서버(300), 적어도 하나의 지능형 CCTV(400)를 포함할 수 있다. 다만, 이러한 도 1의 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 사용자 단말(100)은 네트워크(200)를 통하여 객체 인식 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 객체 인식 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 적어도 하나의 지능형 CCTV(400)와 연결될 수 있다. 또한, 적어도 하나의 지능형 CCTV(400)는, 네트워크(200)를 통하여 객체 인식 서비스 제공 서버(300)와 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

적어도 하나의 사용자 단말(100)은, 사용자 학습 기반 딥러닝 객체 인식 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 오인식 및 오탐지된 이미지를 제거하고 정상적으로 탐지하고자 하는 객체가 인식된 이미지를 선별하는 사용자의 단말일 수 있다. 이때, 사용자는, 지능형 CCTV를 이용하여 임의의 객체를 추적하고자 하는 전문가가 아닌 일반인 또는 고객일 수 있다. 그리고, 사용자 단말(100)은, 실제 딥러닝 모델로 객체가 탐지된 영상 내에서 어느 것이 객체이고, 어느 것이 인식 및 탐지할 객체가 아닌지에 대하여 어노테이션(Annotation) 및 라벨링(Labelling)을 수행하는 사용자의 단말일 수 있다. 후자는 옵션으로 수행될 수 있고, 전자는 후자를, 또 후자는 전자를 대체할 수 있다.

여기서, 적어도 하나의 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

객체 인식 서비스 제공 서버(300)는, 사용자 학습 기반 딥러닝 객체 인식 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 객체 인식 서비스 제공 서버(300)는, 지능형 CCTV(400)와 사용자 단말(100)을 매핑하여 저장하는 서버일 수 있다. 또한, 객체 인식 서비스 제공 서버(300)는 사용자 단말(100)에서 지능형 CCTV(400)의 분석 솔루션을 통하여 딥러닝 모델에 의해 인식 및 탐지된 결과를 사용자 단말(100)로 전달하는 서버일 수 있다. 이때, 객체 인식 서비스 제공 서버(300)는 사용자 단말(100)에서 오인식 및 오탐지로 딥러닝 모델이 잘못 탐지한 이미지, 즉 비정상인 이미지를 선별하도록 하고, 정상인 이미지를 모아서 딥러닝 모델을 재학습시키고 재학습된 딥러닝 모델이 지능형 CCTV(400)에서 적용되도록 하는 서버일 수 있다. 또, 객체 인식 서비스 제공 서버(300)는, 사용자 단말(100)에서 어노테이션 및 라벨링을 한 경우에는 이를 재학습하여 업데이트된 딥러닝 모델을 지능형 CCTV(400)에 적용하도록 하는 서버일 수 있다.

여기서, 객체 인식 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

적어도 하나의 지능형 CCTV(400)는, 사용자 학습 기반 딥러닝 객체 인식 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 특정 객체 또는 특정 상황을 자동으로 인식 및 감지하여 알려주는 장치일 수 있다. 이때, 지능형 CCTV(400)는, 사용자 단말(100)에서 정상 또는 비정상을 골라내 딥러닝 모델을 재학습시키거나, 사용자 단말(100)에서 어노테이션을 수행하여 딥러닝 모델을 재학습시키는 경우, 재학습된 딥러닝 모델을 적용하여 특정 객체를 자동으로 인식 및 감지하는 장치일 수 있다.

여기서, 적어도 하나의 지능형 CCTV(400)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 지능형 CCTV(400)는, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 지능형 CCTV(400)는, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

도 2는 도 1의 시스템에 포함된 객체 인식 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 2를 참조하면, 객체 인식 서비스 제공 서버(300)는, 획득부(310), 선별부(320), 학습부(330) 및 적용부(340)를 포함할 수 있다.

본 발명의 일 실시예에 따른 객체 인식 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 사용자 단말(100) 및 적어도 하나의 지능형 CCTV(400)로 사용자 학습 기반 딥러닝 객체 인식 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 사용자 단말(100) 및 적어도 하나의 지능형 CCTV(400)는, 사용자 학습 기반 딥러닝 객체 인식 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 사용자 단말(100) 및 적어도 하나의 지능형 CCTV(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: World Wide Web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(Hyper Text Mark-up Language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(Chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(Application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(App)을 포함한다.

도 2를 참조하면, 본 발명의 일 실시예는 두 가지의 실시예로 구성될 수 있다. 제 1 실시예는 기본 옵션이고 제 2 실시예는 선택 옵션인데, 차이가 있는 부분은 획득부(310) 및 선별부(320)의 프로세스이고 나머지 학습부(330) 및 적용부(340)는 동일하다. 또, 두 가지 실시예 모두 객체 인식 서비스 제공 서버(300)는 적어도 하나의 지능형 CCTV(400)로부터 영상을 수신하고, 사용자 단말(100)로 인식 및 탐지된 객체에 대한 정보를 알람해주는 것을 기본으로 한다. 이때, 지능형 CCTV(400)는 재난안전, 보안, 국방, 상권분석 등 다양한 분야에서 효과적으로 사용될 수 있는 CCTV 영상기반 지능형 영상감시 솔루션이 적용된 장치이며, 지능형 CCTV(400)는, CCTV가 설치되는 실제 환경에서도 개나 고양이, 나뭇가지 등과 같은 움직임에 상관없이 학습된 객체만 정확하게 감지하고 추적(Tracking)할 수 있는 최첨단 인공지능 기술 소프트웨어가 적용된 장치이다. 예를 들어, 침입감지, 도난 또는 분실물감지, 실시간 모자이크처리, 사람계수, 배회, 군집, 월담, 카메라 무력화 감지, 사람동선 파악 등이 있으나 나열된 것들로 한정되지 않고 열거되지 않은 이유로 배제되지 않는다.

후술될 제 1 실시예 및 제 2 실시예는 고객(구매자)인 사용자가 본 발명의 일 실시예에 따른 딥러닝 모델이 적용된 지능형 CCTV(400)를 구매하여 설치하였는데, 오인식 및 오탐지로 인해 오알람이 울리는 상황을 전제한다. 이때, 각 실시예에서는, 프로그래머와 같은 전문가의 개입없이도 일반인인 사용자가 직접 파인 튜닝(Fine Tuning, 미세조정)이나 커스터마이징을 하는 상황을 설명한다.

<제 1 실시예>

획득부(310)는, 기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득할 수 있다. 획득부(310)에서 기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득할 때, 데이터셋은 딥러닝 모델에서 추론한 영상으로부터 추출된 이미지일 수 있다. 추출된 이미지는 하루에 100장 내지 150장일 수 있지만 해당 숫자에 한정되는 것은 아니다.

딥러닝(Deep Learning)과 같은 인공지능 기술을 이용하여 객체 탐지, 사람 검출, 얼굴인식 등 지능형 영상 분석 기술이 가능해졌고, 딥러닝 기술은 수많은 계층이 심층적으로 구성된 신경망 구조를 이용하여 대용량의 데이터를 학습시키는 기술로, 비선형의 계층적 특징에 대한 학습 능력은 사람의 인식 메커니즘과 유사하다고 알려져 있다. 이러한 딥러닝 기반 영상분석 기술은 다양한 환경의 조건에서도 고성능의 객체 식별 및 인식을 할 수 있어, 사람의 인지 수준을 능가하고 있으며,이는 딥러닝 기반 영상분석이 이전의 머신러닝 기반 기술보다 성능이 비약적으로 상승하였으며, 이는 실제 사회 안전 서비스에 활용이 가능할 만큼 발전하고 있음을 보여준다.

하지만 딥러닝에 이용되는 대규모의 학습 데이터는 공개 데이터셋을 기반으로 하는 경우가 많으므로, 지방 자치단체 통합관제센터나 각 개인이나 기업의 사업장과 같이 다양한 환경의 현장에 바로 적용할 경우, 연구 단계에서의 결과보다는 성능이 저하될 가능성이 크다. 만약 실제 CCTV 카메라의 영상을 클라우드로 저장하고 이를 학습 데이터로 이용할 경우 실제 데이터셋을 활용하므로 성능 저하를 개선하는 효과적인 대안이 될 수 있다. 따라서 실제 환경의 영상 데이터를 확보하여 클라우드로 관리하고, 신경망을 이용하여 지속해서 학습하여 영상분석의 성능을 개선하는 지능형 영상감시 솔루션이 이용될 수 있다.

이에 따라, 본 발명의 일 실시예에서는, 실제로 고객이 지능형 CCTV(400)를 설치하여 사용하는 동안, 기 구축된 딥러닝 모델에서 출력한 데이터를 데이터셋으로 이용할 수 있다. 예를 들어, 아파트 관리실에서 지능형 CCTV(400)를 적용했고, 월담하는 사람을 인식하도록 딥러닝 모델이 구축되었다면, 실제 아파트 각 동의 출입문이나 현관문에서 촬영된 영상에서 월담하는 사람을 인식한 영상, 즉 지능형 CCTV(400)의 출력값을 데이터셋으로 이용하는 것이다. 이때, 데이터셋에는 객체를 제대로 인식한 출력값만 존재하는 것이 아니다.

예를 들어, 큰 고양이가 담을 넘었는데 이를 "월담하는 사람"으로 오인식 및 오탐지하여 경보를 울리는 출력값도 존재한다. 또는, 바람이 불어서 나무의 나뭇가지가 담 위를 왕복했는데, 이를 "월담하는 사람"으로 오인식 및 오탐지하여 경보를 울리는 출력값, 즉 False Alarm을 울리는 출력값도 존재한다. 이는 후술할 선별부(320)에서 사용자가 직접 골라내도록 하고 우선은 재학습을 위한 데이터셋을 모으기 위해 이러한 출력값들을 모두 수집한다. 예를 들어 하루에 100 내지 150 장의 이미지를 모은다고 기재했지만, 사람의 출입이 잦은 아파트 공동현관에서는 더 많은 이미지가 모아질 수도 있고, 사람이 별로 없는 한산한 공장 같은 경우에는 더 적은 이미지가 모아질 수도 있으며 상황이나 실시예에 따라 출력값 및 수집되는 양은 서로 다를 수 있다.

선별부(320)는, 딥러닝 모델에서 객체 인식의 결과가 정상 또는 비정상으로 출력되는 이미지를 사용자 단말(100)로부터 선별받을 수 있다. 즉, 지능형 CCTV(400)에서 경보를 울린 결과(출력값) 중 오경보인 비정상, 그렇지 않은 정상(제대로 탐지 및 인식한 경우)인 경우에는 정상으로 사용자가 직접 체크할 수 있다. 사용자가 할 일은 여기에서 끝이 난다. 더 이상 조작하는 것도 없고 프로그래밍 언어를 배울 필요도 없다. 단지 출력값이 잘못되었나 아닌가만 판단하여 체크하면 끝이다. 선별부(320)에서 딥러닝 모델에서 객체 인식의 결과가 정상 또는 비정상으로 출력되는 이미지를 사용자 단말(100)로부터 선별받을 때, 정상은 학습된 딥러닝 모델을 바탕으로 인식한 객체가 포함된 이미지이고, 비정상은 학습된 딥러닝 모델을 통해 객체를 인식하지 못하고 배경이나 학습되지 않는 객체를 인식하는 이미지를 말한다.

학습부(330)는, 정상으로 선별된 이미지를 이용하여 딥러닝 모델을 추가 학습시킬 수 있다. 이에 따라, 실제 고객이 설치한 CCTV(400)가 획득한 촬영화면, 즉 실제 현장의 이미지들을 기반으로 추가학습시켜 딥러닝 모델을 업데이트함으로써 영상분석 성능을 지속적으로 향상시킬 수 있는 플랫폼이 완성된다. 덧붙여서, 사용자는 필요한 지능형 영상분석 기술을 제공받기 위해, 클라우드 서버(미도시)에 접속하여 영상을 업로드하고 이를 기반으로 딥러닝 기술을 통해 생성된 딥러닝 모델이나 추가학습된 딥러닝 모델, 또는 영상분석 엔진을 다운받아 현장에 적용할 수도 있다. 이러한 클라우드 플랫폼의 목표는 실제 환경의 이미지 데이터셋을 사용하여 지속적인 성능 향상을 제공할 수 있어, 다양한 곳에 활용을 할 수도 있다.

본 발명의 일 실시예의 딥러닝 모델은 다양한 형태로 제공될 수 있는 신경망 학습이 가능한 추상화된 가상화 머신(Virtual Machine)으로 구성할 수 있으며, 하드웨어 사양이나 구축한 클라우드 환경에 따라 달라질 수 있다. 즉 구성하는 방법에 따라 가상화 인스턴스, Docker 컨테이터, 쿠버네티스 클러스터의 포드 등으로 생성할 수 있다. 본 발명의 일 실시예는 특정 지능형 영상 분석 서비스를 제공받기 원하는 사용자에게 하나의 카메라에 하나의 딥러닝 모델을 배정하는 개념일 수 있다. 이에 따라, 사용자가 업로드한 데이터셋에서 온라인 심층 학습을 통해 가장 신뢰할 수 있는 지능형 영상 시 기능을 제공하는 클라우드 서비스를 제공할 수도 있고, 예를 들어, 사용자는 미아 찾기 서비스를 공공 공원의 CCTV 서비스에 설치하기를 원한다고 가정하자. 사용자는 서버에 로그인하여 사람 재식별 서비스를 신청하고 카메라별로 딥러닝 모델을 할당받는다. 사용자는 클라우드 서버로 카메라 위치별 영상 또는 이미지를 업로드하고, 업로드가 완료되면 할당된 딥러닝 모델은 현장에서 수집한 이미지를 기반으로 사람 재식별 기술을 학습하게 된다. 신경망 엔진이 생성되고 검증이 완료되면, 사용자는 이를 다운로드하여 지능형 영상분석 시스템에 적용할 수도 있다. 적용된 지능형 영상분석의 성능은 지속적인 영상 업로드 및 신경망 학습 과정을 통해 성능을 업데이트하게 된다.

클라우드 환경에서 실시간 업데이트를 통해 심층 학습 지능형 영상분석의 성능을 지속해서 향상하고 최적화하는 기술을 지원할 수 있고, 딥러닝 기반 지능형 영상분석 기술은 실시간 상황을 자동으로 인식할 수 있도록 얼굴인식 / 차량인식, 얼굴/차량 재식별, 자동차 번호판 탐지/복원 기술을 제공할 수 있으며, 현장의 실제 감시영상 데이터셋을 기반으로 온라인 심층 학습을 위한 이미지 데이터베이스를 구축함으로써 데이터셋 및 온라인 학습을 위한 GT 반자동 태깅 기능을 제공할 수도 있다.

적용부(340)는, 추가 학습된 딥러닝 모델을 객체 인식에 적용할 수 있다. 즉 A 커피숍에 설치된 지능형 CCTV(400)에서 나온 출력값만으로 딥러닝 모델을 재학습시켜 적용할 수도 있고, A 커피숍 점주인 고객, 즉 사용자가 프랜차이즈 커피숍을 운영하고 있다면, 다른 프랜차이즈 매장에서 나온 결과물을 클라우드로 접속하여 할당받을 수도 있다. 즉, B,C,D 커피숍에서 이용한 결과물을 A 커피숍 점주가 이용할 수도 있는 것이다. 물론, 이는 실제 설치된 환경이 동일하다는 가정하에 가능할 수 있다. 대부분의 프랜차이즈는 그 인테리어가 동일성을 유지하기 때문에 가능할 수 있다. 또는 아파트나 고층빌딩도 동일한 인테리어에 동일한 각도 등으로 설치된 경우를 전제할 수 있다.

<제 2 실시예>

획득부(310)는, 기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득하는 것 대신, 기 구축된 딥러닝 모델에서 객체 인식 결과로 출력된 사용 영상 중 키프레임(KeyFrame)을 추출할 수 있다. 이때, 키프레임이란, 동영상 응용에서 사용하는 언어로, 시작 프레임과 마지막 프레임 중에서 전체 정보를 갖고 있어서 가장 중심이 되는 프레임을 키 프레임이라고 한다. 이때 다양한 키프레임 추출 알고리즘이 공개 및 개시되어 있으므로 이를 이용할 수 있고 어느 특정한 알고리즘에 한정하지 않는다.

선별부(320)는, 딥러닝 모델에서 객체 인식의 결과가 정상 또는 비정상으로 출력되는 이미지를 사용자 단말(100)로부터 선별받는 대신, 사용자 단말(100)로부터 키프레임으로 추출된 이미지 내 어노테이션 및 라벨링(Annotation and Labelling)을 받아 데이터셋을 확보할 수 있다. 이미지 분류를 위한 딥러닝 기술은 미리 정의된 분류 정보를 가지고 있는 대량의 학습 데이터 집합을 사용하여 분류 모델을 학습한다. 학습 데이터 집합은 원본 이미지가 아닌 특징을 추출한 서브 이미지와 그리고 그 특징을 분류하는 태그(Tag) 정보로 구성된다. 이미지 어노테이션 시스템은 학습 데이터 집합을 생성하는 단계에서 사용할 수 있는, 이미지의 특징을 추출한 서브 이미지를 생성하고 이미지 어노테이션을 수행하기 위한 도구이다. 이때, 어노테이션 및 라벨링을 위해서는 다양한 오픈소스(Open source) 도구를 이용할 수도 있는데 이러한 도구들은 웹 기반으로 구성되어 사용자가 직접 ① 이미지 를 업로드하고, ② 이미지로부터 특징을 추출하며, ③ 분류를 위한 태그 정보를 입력함으로써, 이미지 어노테이션을 수행할 수 있다.

이때, 상술한 클라우드 플랫폼을 이용한 것과 같이 A 커피숍 주인이 어노테이션 및 라벨링을 한 결과물이 있다면 이를 오픈소스 플랫폼으로 공유하거나 클라우드 플랫폼으로 공유하도록 할 수 있다. 예를 들어, Annotorious라는 어노테이션 시스템을 이용한다고 가정하면, ① addPlugin 함수를 이용하여 이미지의 특징 영역을 선택하는 플러그인 모듈을 변경하여, rectDragSelector 플러그인 모듈을 autoSelector 플러그인 모듈로 변경할 수 있다. ② addUIModule을 이용하여 특징을 나타내는 태그 이름을 입력하는 UI를 변경할 수 있고, changeLabelBoxUI 모듈을 적용할 수 있다. autoSelector 플러그인 모듈은 마우스 클릭 지점을 중심으로 하여 미리 지정한 사각형 크기 (e.g. 64 x 64 etc.)로 이미지의 특징 영역을 선택하는 모듈이다. 단순히 클릭만으로 균일한 크기의 서브 이미지 추출을 보장할 수 있다. changeLabelBoxUI 모듈은 특징을 나타내는 태그 이름을 미리 입력한 태그 리스트에서 선택하여 입력하도록 한다. 매번 타이핑하는 과정 없이 단순히 클릭만으로 태그 이름을 입력할 수 있다.

이렇게 A 커피숍 점주, 즉 사용자가 어떤 것은 그냥 담을 넘어가는 고양이이고, 어떤 물체는 담을 월담하는 사람이며 어떤 것은 그냥 나뭇가지, 즉 주변환경인지를 어노테이션 및 라벨링했다고 가정하면, 이는 클라우드에 모여 유사한 환경에서 이용될 수도 있도록 한다. 물론, A 커피숍 점주의 라벨링 결과는 A 커피숍 점주에게만 이용하도록 적용 및 딥러닝을 학습하는 것이 기본 개념이므로 상술한 추가적인 구성이 반드시 부가되어야 하는 것은 아니다.

만약 서버 없이 AWS(Amazon Web Service) 기반 서버리스(Serverless) 웹 애플리케이션으로 구축한다면, 별도로 서버를 구매하거나 관리할 필요가 없어 오직 시스템 구축에만 집중할 수 있다. 그리고 AWS CloudWatch 서비스를 통해 시스템 전반의 사용량과 상태를 모니터링 할 수 있다. ⓛ AWS 코그니토(Cognito) 서비스를 활용하여 임의의 사용자들에게 허용된 범위 내에서 AWS 서비스를 사용할 수 있도록 임시 자격 권한을 제공한다. ② AWS Lambda는 서버 없이 코드를 실행할 수 있게 해주는 컴퓨팅 서비스이며, AWS DynamoDB는 클라우드 NoSQL 데이터베이스 서비스이다. 그리고 AWS S3(Simple Storage Service)는 클라우드 저장소 서비스이다. DynamoDB에는 전체 이미지 정보가 저장되어 있다. 이미지 정보는 S3 Browser 저장소에 저장되어 있는 실제 이미지 경로와 이미지 어노테이션 작업 완료 여부 정보이다. 웹 브라우저는 사용자의 임시 자격 권한으로 Lambda에게 DynamoDB에 저장되어 있는 전체 이미지 정보를 요청한다. ③ WebBrowser는 이미지 정보를 가지고 S3 Browser 저장소로부터 이미지들을 로드(Load)한 후 이를 썸네일로 보여준다. 작업 완료된 이미지는 썸네일에서 흐릿하게 보여진다.

④ 사용자는 이미지 어노테이션을 수행할 이미지를 썸네일로부터 선택한 후 어노테이션을 수행한다. 작업이 완료되면 DynamoDB에 결과를 반영한다. 그리고 어노테이션 정보는 json 포맷으로 S3 Browser 저장소에 저장한다. ⑤ 람다는 주기적으로 ④ 번에서 생성한 json 파일을 참조하여 원본 이미지들로부터 특징을 추출한 서브 이미지를 생성한 후 S3 Crop 저장소에 저장한다. 그리고 사용된 json 파일은 모두 압축되어 S3 Backup 저장소에 저장될 수 있다.

추가적으로, 객체탐지의 정확도를 향상시키기 위해 Negative training 방식을 도입할 수 있다. 즉, 현장에 설치된 CCTV로부터 획득한 이미지로부터 추론한 객체인식 결과가, 조명이나 주변환경에 따라 지속적으로 또는 빈번하게 발생되는 다양한 오탐 이미지들만 일괄적으로 수집해 추가 학습시킨 다음, 딥러닝 모델을 업데이트해 적용하게 되면 상대적으로 탐지하려고 하는 객체들에 대한 탐지 정확도를 높여 줄 수 있다.

즉, 딥러닝 모델에 상기 객체 인식의 결과가 비정상으로 출력되는 오탐 이미지만을 일괄 수집 및 획득하여 추가학습하는 네가티브 트레이닝(Negative Training)을 적용하여 딥러닝 모델을 업데이트할 수 있다.

이하, 상술한 도 2의 객체 인식 서비스 제공 서버의 구성에 따른 동작 과정을 도 3 및 도 4를 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.

도 3a를 참조하면, 본 발명의 일 실시예에 따른 객체 인식 서비스 제공 서버(300)는 지능형 CCTV(400) 분석 솔루션을 그대로 이용하면서, 각 개인이나 기업 및 환경에 맞게 커스터마이징을 위한 별도의 비용을 들이지 않으면서도, 프로그래머와 같은 전문가가 아닌 일반인이라도 손 쉽게 오탐지 및 오인식을 제거할 수 있도록 구성된다. 도 3b와 같이 차량을 객체로 검지하는 지능형 CCTV(400)라고 가정하면, AS-IS는 종래기술, TO-BE는 본 발명이다. 종래기술에 따른 객체 인식에서는 정상탐지된 차량 외에 배경이 오탐지되는 등 환경 변화에 취약한 반면, 본 발명의 일 실시예에서는 정상적인 이미지만을 사용자가 골라내기만 하면 시스템에서 자동으로 딥러닝 모델을 재학습시켜 업데이트 및 적용(교체)하게 된다.

도 4a는 본 발명의 일 실시예에 따른 차량 검지 실험값으로 오검지율이 2900%에서 2%로 1/1500로 감소한 것을 알 수 있다. 도 4b를 참조하면, 본 발명의 일 실시예에 따른 기본 프로세스에 따른 제 1 실시예는, 좌측 <기본 옵션>이며, 우측 <선택 옵션>은 기본 옵션을 대체할 수 있는 선택사항이다. 사용자는 편한 것을 골라 사용하면 되며, 두 단계만 서로 다를 뿐, 추가학습 및 적용단계는 두 실시예 모두 동일함은 상술한 바와 같다.

이와 같은 도 2 내지 도 4의 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5는 본 발명의 일 실시예에 따른 도 1의 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 5를 참조하면, 객체 인식 서비스 제공 서버는, 기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득하고(S5100), 딥러닝 모델에서 객체 인식의 결과가 정상 또는 비정상으로 출력되는 이미지를 사용자 단말로부터 선별받는다(S5200).

그리고, 객체 인식 서비스 제공 서버는, 정상으로 선별된 이미지를 이용하여 딥러닝 모델을 추가 학습하고(S5300), 추가 학습된 딥러닝 모델을 객체 인식에 적용한다(S5400).

상술한 단계들(S5100~S5400)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5400)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 5의 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5를 통해 설명된 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

객체 인식 서비스 제공 서버에서 실행되는 객체 인식 서비스 제공 방법에 있어서,
기 구축된 딥러닝 모델에 객체 인식 정확도를 높이기 위한 데이터셋(DataSet)을 수집 및 획득하는 데이터셋 수집 및 획득 단계;
상기 딥러닝 모델에서 객체 인식의 결과가 정상으로 출력되는 이미지 또는 비정상으로 출력되는 이미지에 대한 출력값이 잘못되었는지에 대한 체크를 사용자 단말로 요청하고, 사용자 단말로부터 수신된 상기 출력값에 대한 체크 결과에 따라 상기 딥러닝 모델에서 객체 인식의 결과로 출력되는 이미지를 정상 또는 비정상으로 선별하는 이미지 선별 단계;
상기 이미지 선별 단계를 통해 정상으로 선별된 이미지를 이용하여 상기 딥러닝 모델을 추가 학습시키는 제1 딥러닝 모델 추가 학습 단계; 및
상기 제1 딥러닝 모델 추가 학습 단계를 통해 추가 학습된 딥러닝 모델을 객체 인식에 적용하는 제1 딥러닝 모델 적용 단계를 포함하고,
상기 정상으로 출력되는 이미지는 상기 딥러닝 모델에서 인식 대상의 객체로서 지정된 객체가 포함되어 인식된 이미지이고,
상기 비정상으로 출력되는 이미지는 상기 딥러닝 모델에서 인식 대상의 객체로서 지정된 객체 이외의 배경을 포함한 주변 환경에 대한 객체 또는 상기 딥러닝 모델에서 학습되지 않은 객체가 포함되어 인식된 이미지인, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법.
제 1 항에 있어서,
상기 제1 딥러닝 모델 적용 단계 이후,
상기 기 구축된 딥러닝 모델에서 객체 인식 결과로 출력된 사용 영상 중 비정상으로 출력되는 이미지로부터 키프레임(KeyFrame)을 추출하는 키프레임 추출 단계;
상기 키프레임 추출 단계를 통해 상기 키프레임으로 추출된 이미지 내 어노테이션 및 라벨링(Annotation and Labelling)을 받아 데이터셋을 확보하는 데이터셋 확보 단계;
상기 데이터셋 확보 단계를 통해 확보된 데이터셋을 이용하여 상기 딥러닝 모델을 추가 학습시키는 제2 딥러닝 모델 추가 학습 단계; 및
상기 제2 딥러닝 모델 추가 학습 단계를 통해 추가 학습된 딥러닝 모델을 객체 인식에 적용하는 제2 딥러닝 모델 적용 단계를 더 포함하는, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법.
제 2 항에 있어서,
상기 데이터셋 확보 단계를 통해 확보된 데이터셋은 상기 딥러닝 모델에서 추론한 영상으로부터 추출된 이미지인, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법.
제 2 항에 있어서,
상기 제2 딥러닝 모델 추가 학습 단계는,
상기 딥러닝 모델에 상기 객체 인식의 결과가 비정상으로 출력되는 오탐 이미지만을 일괄 수집 및 획득하여 추가 학습하는 네가티브 트레이닝(Negative Training)을 적용하여 상기 딥러닝 모델을 업데이트하는 것인, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법.
제 3항에 있어서,
상기 추출된 이미지는 하루에 100장 내지 150장인 것인, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법.
삭제
제 1 항에 있어서,
상기 객체 인식 서비스 제공 서버는 적어도 하나의 지능형 CCTV로부터 영상을 수신하는 것인, 사용자 학습 기반 딥러닝 객체 인식 서비스 제공 방법.