KR101896357B1 - 객체를 검출하는 방법, 디바이스 및 프로그램 - Google Patents

객체를 검출하는 방법, 디바이스 및 프로그램 Download PDF

Info

Publication number
KR101896357B1
KR101896357B1 KR1020180015537A KR20180015537A KR101896357B1 KR 101896357 B1 KR101896357 B1 KR 101896357B1 KR 1020180015537 A KR1020180015537 A KR 1020180015537A KR 20180015537 A KR20180015537 A KR 20180015537A KR 101896357 B1 KR101896357 B1 KR 101896357B1
Authority
KR
South Korea
Prior art keywords
image
unit
data
learning
reliability
Prior art date
Application number
KR1020180015537A
Other languages
English (en)
Inventor
고동운
Original Assignee
주식회사 라디코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 라디코 filed Critical 주식회사 라디코
Priority to KR1020180015537A priority Critical patent/KR101896357B1/ko
Application granted granted Critical
Publication of KR101896357B1 publication Critical patent/KR101896357B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • G06K9/3258
    • G06K9/40
    • G06K9/42
    • G06T5/002
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

검출대상 객체를 포함하는 이미지를 획득하는 단계, 상기 획득된 이미지를 복수의 셀로 분할(segmentation)하는 단계, 상기 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 상기 복수의 분할된 셀 각각에 대하여 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하는 단계, 상기 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득하는 단계 및 상기 획득된 신뢰도 및 상기 획득된 하나 이상의 영역의 중첩영역에 기초하여, 상기 객체를 검출하는 단계를 포함하는, 디바이스가 객체를 검출하는 방법이 개시된다.

Description

객체를 검출하는 방법, 디바이스 및 프로그램{METHOD, DEVICE AND PROGRAM FOR DETECTING AN OBJECT}
본 발명은 객체를 검출하는 방법, 디바이스 및 프로그램에 관한 것이다.
일반적으로 관공서, 금융권, 기업등에서 문서의 보관 및 관리의 용도로 문서는 스캔된 이미지 형태로 널리 이용되고 있다. 특히, 문서의 보관 관리 비용의 증가로 1990년대 후반이후 대다수의 금융권에서는 이미지를 이용한 문서 관리가 보편화 되어 있다.
이러한 이미지 형태로 보관및 관리되고 있는 문서내 보호되어야 할 개인정보 내용중 가장 많은 부분을 차지하고 있는것은 주민등록번호이다.
문서내 주민등록번호는 인쇄체 및 필기체 형태로 다양하게 기록되어 있으며, 다양한 양식에 기록되어 기록된 양식을 특정하기 어렵다.
많은 회사 및 금융기관에서 개인정보 보호를 위해 개인정보가 포함된 문서 자동검출 시스템을 도입하여 사용하고 있으나, 검출대상은 텍스트, 워드, 아래한글과 같은 전자문서에 국한되어 있으며, 이미지 형태로 관리유통되는 문서는 검출되지 않아 보안사고가 발생될 위험이 높다.
특허문헌 1은 이미지내 텍스트를 인식하여 개인정보를 추출하고 마킹하는 방법으로 이미지내 문자를 인식하고 인식된 결과를 바탕으로 개인정보를 추출후 마킹한다.
특허문헌 2는 이미지내 텍스트를 인식하고 인식결과를 확률적 유사도를 이용하여 개인정보일 확률을 판단후 개인정보를 추출한다.
특허문헌 3은 스캔된 문서이미지를 템플릿매칭을 이용하여 문서의 종류를 분류하고 분류된 문서의 종류에 상응하는 위치에 존재하는 개인정보를 추출한다. 즉, 정형화된 형식을 갖는 문서이미지에서 문서분류를 통해 개인정보를 검출한다.
특허문헌 1과 특허문헌 2의 경우에는 문자 인식 기술을 이용하는점에서 빠른 처리가 요구되는 정보 유출방지에는 비효율적이며, 문자 인식율에 그 성능이 제한되는 문제점이 있다. 이에 반해 특허문헌 3의 경우에는 빠른 처리가 가능하나 템플릿 매칭등을 이용 문서의 분류가 선행되어야 하는관계로 불특정 포맷의 문서 이미지에 대한 적용에 한계를 갖고 있다.
통상의 컨벌루션 신경망을 이용한 이미지내 객체 검출방법은 분류기를 사용하여 객체를 검출하며, 일정크기의 윈도우를 생성한후 윈도우를 전체 이미지를 움직이며 분류하는 과정을 거치게 된다. 즉 분류기를 일정크기의 윈도우를 상하좌우로 움직이며 전체 이미지를 탐색하는 방식이다. 이는 빠른 처리가 불가능한 문제점을 갖고 있다.
등록특허공보 제10-1401028호 (2014.05.22 등록) 등록특허공보 제10-1721063호 (2017.03.23 등록) 공개특허공보 제10-2015-0130253호 (2015.11.23 공개)
본 발명이 해결하고자 하는 과제는 객체를 검출하는 방법, 디바이스 및 프로그램을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따라 디바이스가 객체를 검출하는 방법은, 검출대상 객체를 포함하는 이미지를 획득하는 단계, 상기 획득된 이미지를 복수의 셀로 분할(segmentation)하는 단계, 상기 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 상기 복수의 분할된 셀 각각에 대하여 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하는 단계, 상기 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득하는 단계 및 상기 획득된 신뢰도 및 상기 획득된 하나 이상의 영역의 중첩영역에 기초하여, 상기 객체를 검출하는 단계를 포함한다.
또한, 상기 분할하는 단계는, 상기 획득된 이미지의 노이즈를 제거하는 단계, 상기 노이즈가 제거된 이미지를 하나 이상의 블록으로 분할하는 단계 및 상기 분할된 하나 이상의 블록 각각을 상기 복수의 셀로 분할하는 단계를 포함할 수 있다.
또한, 상기 하나 이상의 영역에 대한 정보는, 상기 하나 이상의 영역의 중심점 좌표, 폭 및 높이를 포함하고, 상기 하나 이상의 중심점 좌표, 폭 및 높이는, 상기 분할된 하나 이상의 블록 중 상기 하나 이상의 영역 각각이 속한 블록의 폭 및 높이를 기준으로 정규화된 것을 특징으로 할 수 있다.
또한, 상기 검출대상 객체는 하나 이상의 클래스를 포함하고, 상기 하나 이상의 영역에 대한 정보를 획득하는 단계는, 상기 하나 이상의 클래스별로 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하는 단계를 포함할 수 있다.
또한, 상기 객체를 검출하는 단계는, 상기 획득된 하나 이상의 영역 각각에 대하여, 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역을 획득하는 단계 및 상기 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역을 이용하여 상기 객체를 검출하는 단계를 포함할 수 있다.
또한, 상기 객체를 검출하는 단계는, 상기 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역의 중첩영역을 이용하여 상기 객체가 포함된 영역의 위치를 산출하는 단계를 포함할 수 있다.
또한, 상기 네트워크에 포함된 복수의 레이어는 상기 하나 이상의 영역에 대한 정보 및 상기 하나 이상의 영역의 신뢰도를 출력하는 출력 레이어를 포함하고, 상기 출력 레이어는, 상기 복수의 분할된 셀 각각에 대하여 상기 하나 이상의 영역 각각의 위치, 크기 및 신뢰도를 나타내는 뉴런 및 상기 객체의 클래스를 나타내는 뉴런을 포함할 수 있다.
또한, 상기 검출대상 객체는, 상기 이미지에 포함된 주민등록번호 및 다른 개인정보 중 적어도 하나를 포함할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 디바이스는, 하나 이상의 인스트럭션을 저장하는 메모리, 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 검출대상 객체를 포함하는 이미지를 획득하고, 상기 획득된 이미지를 복수의 셀로 분할하고, 상기 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 상기 복수의 분할된 셀 각각에 대하여 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하고, 상기 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득하고, 상기 획득된 신뢰도 및 상기 획득된 하나 이상의 영역의 중첩영역에 기초하여, 상기 객체를 검출한다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 프로그램은, 하드웨어인 컴퓨터와 결합되어, 제1 항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명에 따르면, 스캔된 문서 이미지내 포함된 주민등록번호를 컨벌루션 신경망을 기반으로하여 추출함으로써 이미지내 포함된 비정형 형태의 개인정보를 효율적으로 추출할 수 있다.
또한, 인공신경망을 이용하여 비정형의 양식과 형식에 강인한 주민등록번호 추출로 개인정보 유출 방지 시스템의 성능을 향상시킬 수 있다.
또한, 컨벌루션 신경망을 기반으로 객체를 검출함에 있어서 이미지를 셀로 나누어 처리함으로써 처리속도를 향상시킬 수 있다.
또한, 전처리 과정에서 검출할 영역을 제한함으로써 처리 속도를 향상시킬수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따라 디바이스에서 객체를 검출하는데 이용하는 뉴럴 네트워크를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 디바이스가 객체를 검출하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따라 객체를 검출하는 디바이스의 블록도이다.
도 4는 일 실시 예에 따른 프로세서의 블록도이다.
도 5는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 6은 일 실시 예에 따른 디바이스를 도시한 블록도이다.
도 7 내지 도 11은 개시된 실시 예에 따라 디바이스가 객체를 검출하기 위한 학습을 수행하고, 객체를 검출하는 방법을 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 데이터 인식부의 블록도이다.
도 13은 일 실시 예에 따른 디바이스를 도시한 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 일 실시예에 따라 디바이스에서 객체를 검출하는데 이용하는 뉴럴 네트워크를 설명하기 위한 도면이다.
일 실시 예에서, 디바이스는 객체를 포함한 이미지를 획득할 수 있다. 예를 들어, 디바이스는 외부의 디바이스로부터 객체를 포함한 이미지를 수신하거나, 디바이스에 구비된 촬영 장치를 통해 객체를 촬영하여, 객체를 포함한 이미지를 획득할 수 있다.
일 실시예에 따른 디바이스는 뉴럴 네트워크(neural network, 100)를 이용하여 이미지에 포함된 객체를 검출할 수 있다. 여기서, 뉴럴 네트워크(100)는, 통계학적 기계 학습의 결과를 이용하여, 이미지의 다양한 속성 정보들을 추출하고, 추출된 속성 정보들을 기초로 이미지 내의 객체들을 검출, 식별 및/또는 판단하는 알고리즘 집합일 수 있다.
또한 뉴럴 네트워크(100)는 전술한 알고리즘 집합을 실행하기 위한 소프트웨어 또는 엔진(engine) 등으로 구현될 수 있다. 소프트웨어 또는 엔진 등으로 구현된 뉴럴 네트워크는 디바이스(미도시)내의 프로세서 또는 서버(미도시)의 프로세서에 의해 실행될 수 있다.
일 실시예에 따른 뉴럴 네트워크(100)는, 뉴럴 네트워크(100)에 입력된 이미지 내에 포함된 다양한 속성들을 추상화함으로써, 이미지 내의 객체들을 검출할 수 있다. 이 경우, 이미지 내 속성들을 추상화한다는 것은, 이미지로부터 속성 정보들을 검출하고, 검출된 속성 정보들 중에서 객체를 대표할 수 있는 핵심 속성을 판단 하는 것일 수 있다.
또한, 뉴럴 네트워크(100)는 입력 레이어(110), 출력 레이어(130) 및 그 사이의 복수의 레이어들(122 내지 128)을 포함할 수 있다.
디바이스는 뉴럴 네트워크(100)를 이용하여 이미지의 속성 정보를 추출할 수 있다. 이미지의 속성 정보는 색상, 엣지(edge), 폴리건(polygon), 채도(saturation), 명도(brightness), 색온도, 블러(blur), 선명도(sharpness), 명도비(contrast) 등을 포함할 수 있으나, 이는 일 예일 뿐, 이미지의 속성 정보가 전술한 예에 한정되는 것은 아니다.
한편, 디바이스는 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 디바이스는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 디바이스일 수 있다.
도 2는 일 실시예에 따른 디바이스가 객체를 검출하는 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 디바이스는 검출대상 객체를 포함하는 이미지를 획득한다.
예를 들어, 검출대상 객체는 이미지에 포함된 주민등록번호를 의미할 수 있으나, 이에 제한되지 않는다.
일 실시 예에서, 검출대상 객체는 하나 이상의 클래스를 포함한다. 예를 들어, 클래스는 서로 다른 종류의 객체를 의미한다. 예를 들어, 검출대상 객체는 수기로 작성된 필기체 형식의 주민등록번호와, 타이핑(또는 인쇄)된 인쇄체 형식의 주민등록번호를 포함한다. 또한, 검출대상 객체는 지문이나 이름, 주소 등 다양한 종류의 개인정보를 포함할 수 있으며, 이에 제한되지 않는다.
일 실시 예에서, 이미지는 스캔 또는 촬영된 문서이미지를 포함할 수 있다.
일 실시 예에서, 디바이스는 획득된 이미지의 노이즈를 제거한다. 예를 들어, 디바이스는 이미지에 포함된 불필요한 공백이나, 정보를 포함하지 않는 부분, 스캔 또는 촬영 중에 이미지에 포함된 불필요한 화소 등을 제거할 수 있다.
일 실시 예에서, 디바이스는 이미지를 정합시킬 수 있다. 예를 들어, 디바이스는 이미지를 회전시키거나, 이미지의 크기를 조절하여 이미지를 소정의 규격에 맞도록 정합시킬 수 있다.
일 실시 예에서, 디바이스는 노이즈가 제거되고, 정합된 이미지를 하나 이상의 블록으로 분할(segment)할 수 있다.
예를 들어, 디바이스는 이미지에 포함된 흑화소의 분포를 바탕으로 이미지를 여러 개의 블록으로 분할할 수 있다. 스캔된 문서의 많은 부분이 공백 혹은 의미없는 부분이므로, 분할된 블록만을 객체 검출에 활용함으로써, 처리 속도를 향상시킬 수 있다.
일 실시 예에서, 디바이스는 분할된 블록을 이용하여 정규화된 이미지를 생성할 수 있다. 예를 들어, 디바이스는 흑백 및 컬러이미지를 모두 처리하기 위하여 3개 채널을 갖는 컬러 이미지로, 가로 및 세로 길이가 동일한 정규화 이미지를 생성할 수 있다.
단계 S220에서, 디바이스는 단계 S210에서 획득된 이미지를 복수의 셀로 분할한다.
일 실시 예에서, 디바이스는 단계 S210에서 이미지를 분할한 하나 이상의 블록 각각을 복수의 셀로 분할할 수 있다.
블록을 복수의 셀로 분할하는 구체적인 방법은 후술한다.
단계 S230에서, 디바이스는 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 단계 S220에서 분할된 복수의 셀 각각에 대하여 검출대상 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득한다.
일 실시 예에서, 하나 이상의 영역에 대한 정보는, 하나 이상의 영역의 중심점 좌표, 폭 및 높이를 포함한다.
일 실시 예에서, 하나 이상의 중심점 좌표, 폭 및 높이는 단계 S210에서 분할된 하나 이상의 블록 중 하나 이상의 영역 각각이 속한 블록의 폭 및 높이를 기준으로 정규화된 정보일 수 있다. 예를 들어, 하나 이상의 중심점 좌표, 폭 및 높이는 블록의 폭 및 높이를 기준으로 0~1사이의 값으로 정규화될 수 있다.
일 실시 예에서, 디바이스는 하나 이상의 클래스별로 검출대상 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득한다.
또한, 디바이스는 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득한다.
일 실시 예에서, 디바이스는 획득된 하나 이상의 영역 각각에 대하여, 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역을 획득한다. 디바이스는 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역을 이용하여 객체를 검출한다.
예를 들어, 디바이스는 획득된 하나 이상의 영역 중 소정의 임계치 이상의 신뢰도를 갖지 못하는 영역은 배제하고, 소정의 임계치 이상의 신뢰도를 갖는 영역에 대해서만 분석을 통해 객체를 검출할 수 있다.
일 실시 예에서, 디바이스는 획득된 하나 이상의 영역의 중첩영역에 기초하여 객체를 검출한다. 예를 들어, 획득된 하나 이상의 영역에 있어서 많은 영역들이 중첩되는 부분이 있다면, 해당 부분에서 객체가 검출될 확률이 높다고 할 수 있다. 따라서, 디바이스는 하나 이상의 영역의 중첩영역에 기초하여 객체를 검출할 수 있다.
일 실시 예에서, 디바이스는 소정의 임계치 이상의 신뢰도를 갖는 영역들의 중첩영역에 기초하여 객체를 검출할 수 있다.
일 실시 예에서, 디바이스에서 이용되는 뉴럴 네트워크는 복수의 레이어들을 포함하고, 하나 이상의 영역에 대한 정보 및 하나 이상의 영역의 신뢰도를 출력하는 출력 레이어를 포함한다.
일 실시 예에서, 출력 레이어는 복수의 분할된 셀 각각에 대하여 하나 이상의 영역 각각의 위치, 크기 및 신뢰도를 나타내는 뉴런 및 검출대상 객체의 클래스를 나타내는 뉴런을 포함한다.
도 3은 일 실시예에 따라 객체를 검출하는 디바이스의 블록도이다.
프로세서(310)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.
일 실시예에 따라 프로세서(310)는 뉴럴 네트워크(100)에 포함된 하나 이상의 인스트럭션들을 병렬적으로 처리할 수 있다.
예를 들어, 프로세서(310)는 뉴럴 네트워크(100)에 포함된 복수의 레이어들을 이용하여, 이미지의 색상, 엣지, 폴리건, 채도, 명도, 색온도, 블러, 선명도, 명도비 등과 같은 속성 정보를 획득할 수 있다.
일 실시예에 따른 프로세서(310)는 메모리에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 2와 관련하여 설명된 객체 검출방법을 수행한다.
예를 들어, 프로세서(310)는 메모리에 저장된 하나 이상의 인스트럭션을 실행함으로써 검출대상 객체를 포함하는 이미지를 획득하고, 상기 획득된 이미지를 복수의 셀로 분할하고, 상기 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 상기 복수의 분할된 셀 각각에 대하여 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하고, 상기 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득하고, 상기 획득된 신뢰도 및 상기 획득된 하나 이상의 영역의 중첩영역에 기초하여, 상기 객체를 검출한다.
한편, 프로세서(310)는 프로세서(310) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(310)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
메모리(320)에는 프로세서(310)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(320)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다. 일 실시예에 따라 메모리(320)는 데이터 학습부 및 데이터 인식부를 포함할 수 있다. 또한, 데이터 학습부 및 데이터 인식부는 각각 독립적으로 뉴럴 네트워크 모듈을 포함하거나, 하나의 뉴럴 네트워크 모듈을 공유할 수 있다.
뉴럴 네트워크 모듈은 복수의 레이어들을 포함할 수 있다. 뉴럴 네트워크 모듈에 포함된 복수의 레이어들은 각각 이미지로부터 적어도 하나의 속성 정보를 검출하고 검출된 적어도 하나의 속성 정보를 추상화하는 하나 이상의 인스트럭션들을 포함할 수 있다.
예를 들어, 제1 내지 제 N 레이어들(122 내지 128)은 각각 이미지로부터 이미지의 속성 정보를 추출하는 하나 이상의 인스트럭션을 포함하는 컨벌루션 레이어(convolution layer), 및/또는 추출된 이미지 속성 으로부터 대표값을 결정하는 하나 이상의 인스트럭션을 포함하는 풀링 레이어(pooling layer)를 포함할 수 있다.
도 4를 참고하면, 일 실시예에 따른 프로세서(330)는 데이터 학습부(410) 및 데이터 인식부(420)를 포함할 수 있다.
데이터 학습부(410)는 이미지 내에 포함된 객체를 검출하기 위한 기준을 학습할 수 있다. 예를 들어, 데이터 학습부(410)는 객체를 검출하기 위해 사용되는 학습 데이터를 이용하여 뉴럴 네트워크(100)에 포함되는 적어도 하나의 레이어의 파라미터를 학습시킬 수 있다.
데이터 인식부(420)는 데이터 학습부(410)를 통해 학습된 기준에 기초하여, 이미지 내의 객체를 검출할 수 있다.
데이터 학습부(410) 및 데이터 인식부(420) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스에 탑재될 수 있다. 예를 들어, 데이터 학습부(410) 및 데이터 인식부(420) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스에 탑재될 수도 있다.
이 경우, 데이터 학습부(410) 및 데이터 인식부(420)는 하나의 디바이스에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(410) 및 데이터 인식부(420) 중 하나는 디바이스에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(410) 및 데이터 인식부(420)는 유선 또는 무선으로 통하여, 데이터 학습부(410)가 구축한 모델 정보를 데이터 인식부(420)로 제공할 수도 있고, 데이터 인식부(420)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(410)로 제공될 수도 있다.
한편, 데이터 학습부(410) 및 데이터 인식부(420) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(410) 및 데이터 인식부(420) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.
도 5는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 5를 참조하면, 일부 실시예에 따른 데이터 학습부(410)는 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550)를 포함할 수 있다. 다만, 이는 일 실시예일뿐, 전술한 구성 들 보다 적은 구성 요소로 데이터 학습부(410)가 구성되거나, 전술한 구성들 이외에 다른 구성 요소가 추가적으로 데이터 학습부(410)에 포함될 수 있다.
데이터 획득부(510)는 이미지 및 동영상 중 적어도 하나를 획득할 수 있다. 여기에서, 동영상은 복수의 이미지들로 구성될 수 있다. 일 예로, 데이터 획득부(510)는 데이터 학습부(410)를 포함하는 디바이스 또는 학습부(410)를 포함하는 디바이스와 통신 가능한 외부의 디바이스로부터 이미지를 획득할 수 있다.
전처리부(520)는 객체의 검출을 위한 학습에 획득된 이미지가 이용될 수 있도록, 획득된 이미지를 전처리할 수 있다. 전처리부(520)는 후술할 모델 학습부(540)가 객체의 검출을 위한 학습을 위하여 획득된 이미지를 이용할 수 있도록, 획득된 이미지를 기 설정된 포맷으로 가공할 수 있다.
학습 데이터 선택부(530)는 전처리된 데이터 중에서 학습에 필요한 이미지를 선택할 수 있다. 선택된 이미지는 모델 학습부(540)에 제공될 수 있다. 학습 데이터 선택부(530)는 설정된 기준에 따라, 전처리된 이미지 중에서 학습에 필요한 이미지를 선택할 수 있다.
모델 학습부(540)는 데이터 인식 모델을 학습시킬 수 있다. 예를 들어, 데이터 학습부(410)는 객체를 검출하기 위해 사용되는 학습 데이터를 이용하여 뉴럴 네트워크(100)에 포함되는 적어도 하나의 레이어의 파라미터를 학습시킬 수 있다.
또한, 모델 학습부(540)는, 예를 들어, 학습에 따른 객체의 검출 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.
또한, 데이터 인식 모델이 학습되면, 모델 학습부(540)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(540)는 학습된 데이터 인식 모델을 데이터 인식부(420)를 포함하는 디바이스의 메모리에 저장할 수 있다. 또는, 모델 학습부(540)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(420)를 포함하는 디바이스의 메모리에 저장할 수 있다. 또는, 모델 학습부(540)는 학습된 데이터 인식 모델을 디바이스와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 디바이스의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 애플리케이션 프로그래밍 인터페이스(API) 및/또는 애플리케이션 프로그램(또는 "애플리케이션") 등을 포함할 수 있다.
모델 평가부(550)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 검출 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(540)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다. 여기에서, 평가 데이터는 데이터 인식 모델을 기반으로 검출된 객체와 실제의 객체 간의 일치 비율 등을 포함할 수 있다.
한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(550)는 각각의 학습된 동영상 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다.
한편, 데이터 학습부(410) 내의 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스에 탑재될 수 있다. 예를 들어, 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스 에 탑재될 수도 있다.
또한, 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550)는 하나의 디바이스에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550) 중 일부는 디바이스에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(510), 전처리부(520), 학습 데이터 선택부(530), 모델 학습부(540) 및 모델 평가부(550) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 6은 일 실시 예에 따른 디바이스를 도시한 블록도이다.
도 6을 참조하면, 디바이스(300)는 이미지 전처리부(330), 학습데이터 편집 및 생성부(332), 학습데이터 저장부(334), 학습부(336) 및 학습결과저장부(338)를 포함한다.
일 실시 예에서, 이미지 전처리부(330), 학습데이터 편집 및 생성부(332), 학습데이터 저장부(334), 학습부(336) 및 학습결과저장부(338)는 도 4 및 도 5에 도시된 데이터 학습부(410)의 일 실시 예로서 이해될 수 있다.
따라서, 도 6에 도시된 디바이스(300) 및 디바이스(300)에 포함된 이미지 전처리부(330), 학습데이터 편집 및 생성부(332), 학습데이터 저장부(334), 학습부(336) 및 학습결과저장부(338)와 관련하여 생략된 내용이라 하더라도, 도 4 및 도 5의 데이터 학습부(410)와 관련하여 이미 설명된 내용은 도 6에 도시된 디바이스(300) 및 디바이스(300)에 포함된 이미지 전처리부(330), 학습데이터 편집 및 생성부(332), 학습데이터 저장부(334), 학습부(336) 및 학습결과저장부(338)에도 적용될 수 있다.
이하에서는, 도 7 내지 도 11을 참조하여, 도 6에 도시된 디바이스(300)의 동작을 설명한다.
도 7 내지 도 11은 개시된 실시 예에 따라 디바이스가 객체를 검출하기 위한 학습을 수행하고, 객체를 검출하는 방법을 설명하기 위한 도면이다.
일 실시 예에서, 디바이스(300)는 신경망 학습을 위한 학습데이터(600)를 생성하고 이를 이용하여 뉴럴 네트워크를 학습시키고 그 학습결과를 저장한다. 예를 들어, 뉴럴 네트워크는 컨벌루션 기반의 뉴럴 네트워크일 수 있다.
일 실시 예에서, 이미지 전처리부(330)는 스캔된 문서 이미지로부터 노이즈를 제거한 후, 흑화소의 분포를 바탕으로 여러개의 블록으로 분할한다. 도 8을 참조하면, 스캔된 문서 이미지(700)로부터 분할된 각각의 블록(710 내지 740)이 도시되어 있다.
분할된 각각의 블록은 뉴럴 네트워크(100)의 입력레이어(110)의 입력값으로 정규화된다. 이미지 전처리부(330)는 분할된 블록을 이용하여 학습데이터(600)의 정규화된 이미지(610)부분을 생성한다.
일 실시 예에서, 정규화 이미지는 흑백 및 컬러이미지를 모두 처리하기 위하여 3개 채널을 갖는 컬러 이미지로서, 가로 및 세로가 동일한 소정의 크기로 정규화된다.
학습데이터 편집 및 생성부(332)는 사용자의 입력을 받아 이미지 상의 객체 영역과 해당 영역의 종류(또는 클래스)를 설정하고, 이를 이용하여 마스크 데이터(620)를 만든다.
예를 들어, 마스크 데이터(620)는 도 9에 도시된 바와 같이 객체 영역(810)의 중심점(812)의 x, y 좌표와 영역의 폭(814)과 높이(816)으로 구성된다. 예를 들어, 객체 영역(810)의 중심점(812) 좌표는 세그먼트된 블럭(800)의 폭과 높이를 기준으로 0과 1 사이로 정규화될 수 있다.
또한 영역의 폭(814)과 높이(816) 역시 세그먼트된 블럭(800)의 폭과 높이를 기준으로 0과 1사이로 정규화될 수 있다.
따라서 마스크 데이터(620)에 포함되는 객체 영역정보는 영역의 중심점(812)과 영역의 폭(814) 및 높이(816)의 정보를 포함하고, 각각의 정보가 0과 1 사이로 정규화된 정보이다.
마스크 데이터(620)는 뉴럴 네트워크 학습시 지도학습을 위한 데이터로 사용된다.
일 실시 예에서, 학습데이터 저장부(334)는 생성된 학습데이터에 노이즈 추가, 회전, 이동 등의 변환작업을 거쳐 다수의 학습데이터를 자동으로 생성 및 저장한다. 이때 학습데이터 저장부(334)는 분산 병렬 처리가 가능한 저장소로 형성될 수 있다.
학습부(336)는 생성된 학습데이터를 이용하여 뉴럴 네트워크(100)를 학습시킨다. 일 실시예에서, 뉴럴 네트워크(100)의 학습은 지도학습(supervised learning)으로 이루어진다. 지도학습이란, 입력 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 입력하고, 입력 데이터에 대응하는 출력 데이터가 출력되도록 연결된 간선들의 가중치를 업데이트하는 방법이다. 예를 들어, 개시된 실시 예에 따른 뉴럴 네트워크는 델타 규칙 및 오류역전파 학습 등을 이용하여 인공뉴런들 사이의 연결 가중치를 업데이트 할수 있다.
학습결과 저장부(338)는 뉴럴 네트워크(100)의 학습결과인 가중치값과 뉴럴 네트워크(100)의 구성정보를 학습결과 데이터로 저장한다.
도 10은 개시된 실시 예에 따라 객체를 검출하는 방법을 도시한 도면이다.
개시된 실시 예에서는, 검출속도 향상을 위해서 분할된 블록 이미지(800)를 일정한 크기의 셀(802)로 나눈 후 각 셀(802)에 기초하여 객체 검출을 수행한다.
예를 들어, 디바이스(300)는 분할된 블록(800) 이미지를 w*h개의 셀로 나눈 후 나뉜 각 셀별로 각각 n개의 추정된 객체 영역과 신뢰도를 추출한다.
도 11을 참조하면, 출력레이어(130)의 구성의 일 예가 도시되어 있다.
예를 들어, 출력레이어(130)는 각 셀별로 각각 n개의 추정된 객체 영역과 영역별 신뢰도를 출력하는 컨벌루션 뉴럴 네트워크로 구성된다.
또한, 나뉜 셀 중 하나인 셀(804)에 대응하는 뉴런(900)은 각각 추정된 객체 영역의 중심점의 가로 좌표 x를 나타내는 뉴런(901), 세로 좌표 y를 나타내는 뉴런(902), 영역의 폭을 나타내는 뉴런(903), 영역의 높이를 나타내는 뉴런(904), 신뢰도를 나타내는 뉴런(905)들이 순차적으로 n개가 포함되며, 클래스 구분을 위한 뉴런(906 및 907)으로 구성될 수 있다.
이후 디바이스(300)는 각 셀별로 추정된 객체 영역들간의 중첩 부분과 신뢰도를 이용하여 최적의 객체 영역을 추정할 수 있다.
이때 객체 영역(810)은 학습을 위한 마스크 데이터의 구조와 같은 영역의 중심점(812)좌표 x, y 와 영역의 폭(814) 및 영역의 높이(816)의 정보를 갖는다. 또한 추정된 객체 영역(810)마다 신뢰도를 갖는다.
따라서 객체 영역 검출을 위한 뉴럴 네트워크(100)의 최종 출력 레이어(130)는 w*h*(n*5+c)의 크기의 출력을 갖는 컨벌루션 레이어의 형태로 구성된다. 이때 c는 구분하고자 하는 클래스의 갯수이며, 컨벌루션 레이어의 필터의 개수는 n*5+c가 된다.
일 실시 예에서, 클래스의 개수는 인쇄된 인쇄체형식의 주민등록번호와 필기된 필기체 형식의 주민등록번호를 포함하는 2개가 될 수 있다. 이외에도 지문이나 이름 등 다른 형식의 개인정보 검출을 위하여 클래스를 추가하고, 다양한 형식의 개인정보를 검출할 수 있다.
예로, 입력 레이어(110)는 이미지 전처리부(330)의 처리 결과로 정규화된 이미지를 입력값으로 받기 위해 3개 채널에 608 * 608 크기를 갖도록 구성될 수 있다.
예로, 복수의 레이어들(122 내지 128)에 포함된 제1 레이어(122)는 컨벌루션 레이어로서 입력레이어(110)의 입력값을 받고, 윈도우의 크기는 3, 필터의 크기는 32로 구성된다.
예로, 복수의 레이어들(122 내지 128)에 포함된 제2 레이어(124)는 풀링 레이어로서, 컨벌루션 레이어의 출력값을 받고, 다운스케일 크기는 2로 구성된다.
이후의 레이어들(126 및 128)은 생략될 수 있으며, 실시 예에 따라 제3 레이어(126)를 컨벌루션 레이어로 사용하고, 풀링레이어의 다운샘플링으로 인하여 검출결과의 해상도가 낮아지는 것을 방지하기 위해, 제4 레이어(128)는 이용되지 않을 수 있다.
출력 레이어(130)의 출력값은 객체 검출을 위하여 분할된 이미지를 나눌 셀의 크기를 가지고, 클래스별로 추정되는 n개 객체 영역의 정보와 신뢰도를 갖도록 구성된다.
따라서, 개시된 실시 예에 따른 뉴럴 네트워크(100)는 전처리된 이미지를 입력받아 각 레이어를 통과 후 출력 레이어(130)에서 이미지 내의 객체로 추정되는 영역의 좌표정보와 신뢰도를 도출하게 된다. 이때 신뢰도가 임계치 이상인 경우만을 추출된 영역으로 선택함으로써 객체 검출과정을 완성하게 된다.
도 12는 일 실시예에 따른 데이터 인식부의 블록도이다.
도 12를 참조하면, 일부 실시예에 따른 데이터 인식부(420)는 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050)를 포함할 수 있다.
데이터 획득부(1010)는 객체의 검출에 필요한 이미지를 획득할 수 있으며, 전처리부(1020)는 객체의 검출을 위해 획득된 이미지가 이용될 수 있도록, 획득된 이미지를 전처리할 수 있다. 전처리부(1020)는 후술할 인식 결과 제공부(1040)가 객체의 검출을 위하여 획득된 이미지를 이용할 수 있도록, 획득된 이미지를 기 설정된 포맷으로 가공할 수 있다. 인식 데이터 선택부(1030)는 전처리된 데이터 중에서 객체의 검출에 필요한 이미지를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1040)에게 제공될 수 있다.
인식 결과 제공부(1040)는 선택된 이미지를 일 실시예에 따른 뉴럴 네트워크에 적용하여 이미지 내의 객체를 검출할 수 있다. 여기에서, 뉴럴 네트워크는 전술한 바와 복수의 레이어를 포함할 수 있다. 뉴럴 네트워크에 이미지를 적용하여 이미지 내의 객체를 검출하는 방법은 도 1 내지 11을 참고하여 전술한 방법과 대응될 수 있다.
인식 결과 제공부(1040)는 이미지에 포함된 적어도 하나의 객체의 검출 정보를 제공할 수 있다.
모델 갱신부(1050)는 인식 결과 제공부(1040)에 의해 제공되는 객체의 검출 결과에 대한 평가에 기초하여, 뉴럴 네트워크에 포함된 하나 이상의 레이어의 파라미터 등이 갱신되도록 평가에 대한 정보를 도 5를 참고하여 전술한 모델 학습부(1040)에게 제공할 수 있다.
한편, 데이터 인식부(1020) 내의 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스에 탑재될 수 있다. 예를 들어, 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050) 중 적어도 하나는 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스에 탑재될 수도 있다.
또한, 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050)는 하나의 디바이스에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050) 중 일부는 디바이스에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1010), 전처리부(1020), 인식 데이터 선택부(1030), 인식 결과 제공부(1040) 및 모델 갱신부(1050) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.
도 13은 일 실시 예에 따른 디바이스를 도시한 블록도이다.
도 13을 참조하면, 디바이스(300)는 신경망 학습결과 로드부(340), 신경망 생성부(342), 이미지 전처리부(344), 검출부(346) 및 검출결과 적용부(348)를 포함한다.
일 실시 예에서, 신경망 학습결과 로드부(340), 신경망 생성부(342), 이미지 전처리부(344), 검출부(346) 및 검출결과 적용부(348)는 도 4 및 도 12에 도시된 데이터 인식부(420)의 일 실시 예로서 이해될 수 있다.
따라서, 도 13에 도시된 디바이스(300) 및 디바이스(300)에 포함된 신경망 학습결과 로드부(340), 신경망 생성부(342), 이미지 전처리부(344), 검출부(346) 및 검출결과 적용부(348)와 관련하여 생략된 내용이라 하더라도, 도 4 및 도 5의 데이터 학습부(410)와 관련하여 이미 설명된 내용은 도 13에 도시된 디바이스(300) 및 디바이스(300)에 포함된 신경망 학습결과 로드부(340), 신경망 생성부(342), 이미지 전처리부(344), 검출부(346) 및 검출결과 적용부(348)에도 적용될 수 있다.
신경망 학습결과 로드부(340)는 도 6의 학습결과저장부(338)를 통하여 저장된 학습결과데이터를 읽어들인다. 이때, 읽어들이는 정보는 컨벌루션 기반 뉴럴 네트워크의 구성 정보와 각 레이어 내 뉴런간의 가중치 정보를 포함한다.
신경망 생성부(342)는 상기 신경망 학습결과 로드부(340)를 통하여 읽어들인 신경망의 구성정보와 가중치 정보를 바탕으로 객체 검출을 위한 뉴럴 네트워크를 생성한다.
상기 신경망 학습결과 로드부(340)와 신경망 생성부(342)를 포함함에 따라, 데이터 인식부(420)는 데이터 인식부(410)와 별개의 장치로 독립적으로 동작할 수 있다.
이미지 전처리부(344)는 도 6의 이미지 전처리부(330)와 동일하게 입력된 이미지로부터 노이즈를 제거하고, 객체 검출을 위한 블록 분할 및 정규화 작업을 수행한다.
검출부(346)는 이미지 전처리부(344)로 부터 생성된, 분할된 각 블록별 입력데이터와 신경망 생성부(342)로부터 생성된 컨벌루션 기반 뉴럴 네트워크를 이용하여 객체 검출작업을 수행한다.
검출결과 적용부(348)는 검출부(346)로부터 생성된 객체 검출정보를 바탕으로, 이미지로부터 분할된 각각의 블록의 위치정보를 이용하여 객체의 위치를 산출한다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
300: 디바이스
310: 프로세서
320: 메모리

Claims (10)

  1. 검출대상 객체를 포함하는 이미지를 획득하는 단계;
    상기 획득된 이미지를 복수의 셀로 분할(segmentation)하는 단계;
    상기 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 상기 복수의 분할된 셀 각각에 대하여 상기 객체 검출을 수행하되, 상기 복수의 분할된 셀로부터 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하는 단계;
    상기 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득하는 단계; 및
    상기 획득된 신뢰도 및 상기 획득된 하나 이상의 영역의 중첩영역에 기초하여, 상기 객체를 검출하는 단계; 를 포함하며,
    상기 분할하는 단계는,
    상기 획득된 이미지에 포함된 화소의 분포를 바탕으로 상기 이미지를 하나 이상의 블록으로 분할는 단계; 및
    상기 분할된 하나 이상의 블록 각각을 상기 복수의 셀로 분할하는 단계를 포함하는, 디바이스가 객체를 검출하는 방법.
  2. 삭제
  3. 제1 항에 있어서,
    상기 하나 이상의 영역에 대한 정보는, 상기 하나 이상의 영역의 중심점 좌표, 폭 및 높이를 포함하고,
    상기 하나 이상의 중심점 좌표, 폭 및 높이는,
    상기 분할된 하나 이상의 블록 중 상기 하나 이상의 영역 각각이 속한 블록의 폭 및 높이를 기준으로 정규화된 것을 특징으로 하는, 디바이스가 객체를 검출하는 방법.
  4. 제1 항에 있어서,
    상기 검출대상 객체는 하나 이상의 클래스를 포함하고,
    상기 하나 이상의 영역에 대한 정보를 획득하는 단계는,
    상기 하나 이상의 클래스별로 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하는 단계를 포함하는, 디바이스가 객체를 검출하는 방법.
  5. 제1 항에 있어서,
    상기 객체를 검출하는 단계는,
    상기 획득된 하나 이상의 영역 각각에 대하여, 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역을 획득하는 단계; 및
    상기 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역을 이용하여 상기 객체를 검출하는 단계; 를 포함하는, 디바이스가 객체를 검출하는 방법.
  6. 제5 항에 있어서,
    상기 객체를 검출하는 단계는,
    상기 소정의 임계치 이상의 신뢰도를 갖는 하나 이상의 영역의 중첩영역을 이용하여 상기 객체가 포함된 영역의 위치를 산출하는 단계; 를 포함하는, 디바이스가 객체를 검출하는 방법.
  7. 제1 항에 있어서,
    상기 네트워크에 포함된 복수의 레이어는 상기 하나 이상의 영역에 대한 정보 및 상기 하나 이상의 영역의 신뢰도를 출력하는 출력 레이어를 포함하고,
    상기 출력 레이어는,
    상기 복수의 분할된 셀 각각에 대하여 상기 하나 이상의 영역 각각의 위치, 크기 및 신뢰도를 나타내는 뉴런 및 상기 객체의 클래스를 나타내는 뉴런을 포함하는, 디바이스가 객체를 검출하는 방법.
  8. 제1 항에 있어서,
    상기 검출대상 객체는,
    상기 이미지에 포함된 주민등록번호 및 다른 개인정보 중 적어도 하나를 포함하는, 디바이스가 객체를 검출하는 방법.
  9. 하나 이상의 인스트럭션을 저장하는 메모리;
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    검출대상 객체를 포함하는 이미지를 획득하고,
    상기 획득된 이미지를 복수의 셀로 분할하고,
    상기 객체를 검출하기 위한 네트워크에 포함된 복수의 레이어를 이용하여, 상기 복수의 분할된 셀 각각에 대하여 상기 객체 검출을 수행하되, 상기 복수의 분할된 셀로부터 상기 객체를 포함하는 것으로 추정되는 하나 이상의 영역에 대한 정보를 획득하고,
    상기 획득된 하나 이상의 영역 각각에 대한 신뢰도를 획득하고,
    상기 획득된 신뢰도 및 상기 획득된 하나 이상의 영역의 중첩영역에 기초하여, 상기 객체를 검출하며,
    상기 획득된 이미지를 복수의 셀로 분할함에 있어서,
    상기 획득된 이미지에 포함된 화소의 분포를 바탕으로 상기 이미지를 하나 이상의 블록으로 분할하고, 상기 분할된 하나 이상의 블록 각각을 상기 복수의 셀로 분할하는, 객체를 검출하는 디바이스.
  10. 하드웨어인 컴퓨터와 결합되어, 제1 항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.
KR1020180015537A 2018-02-08 2018-02-08 객체를 검출하는 방법, 디바이스 및 프로그램 KR101896357B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180015537A KR101896357B1 (ko) 2018-02-08 2018-02-08 객체를 검출하는 방법, 디바이스 및 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180015537A KR101896357B1 (ko) 2018-02-08 2018-02-08 객체를 검출하는 방법, 디바이스 및 프로그램

Publications (1)

Publication Number Publication Date
KR101896357B1 true KR101896357B1 (ko) 2018-09-07

Family

ID=63595144

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180015537A KR101896357B1 (ko) 2018-02-08 2018-02-08 객체를 검출하는 방법, 디바이스 및 프로그램

Country Status (1)

Country Link
KR (1) KR101896357B1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102104238B1 (ko) * 2018-10-19 2020-04-24 한국과학기술연구원 광변조기 기반 구조 조명 현미경 시스템 및 상기 시스템에 의해 수행되는 이미지 생성 방법
CN111191730A (zh) * 2020-01-02 2020-05-22 中国航空工业集团公司西安航空计算技术研究所 一种面向嵌入式深度学习的超大尺寸图像目标检测方法及***
KR20200092845A (ko) * 2019-01-25 2020-08-04 주식회사 스트라드비젼 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
KR102200608B1 (ko) * 2019-07-03 2021-01-08 영남대학교 산학협력단 문자 검출 장치 및 방법
KR102201930B1 (ko) * 2019-11-07 2021-01-12 신현준 문서 정보를 포함한 이미지 파일의 자동 문서화 장치 및 방법
KR102309562B1 (ko) * 2020-12-30 2021-10-06 주식회사 애자일소다 Pdf 테이블 재구성 장치 및 그 동작 방법
WO2021230680A1 (en) * 2020-05-13 2021-11-18 Pireco Co,. Ltd. Method and device for detecting object in image
KR20220126560A (ko) 2021-03-09 2022-09-16 국민대학교산학협력단 이중 임계범위 기반의 객체 추출장치 및 그 방법
CN115393595A (zh) * 2022-10-27 2022-11-25 福思(杭州)智能科技有限公司 分割网络模型训练方法、车道线检测方法和电子装置
WO2022265467A1 (ko) * 2021-06-18 2022-12-22 삼성전자 주식회사 이미지 내의 객체를 검출하기 위한 전자 장치 및 방법
KR20230065610A (ko) 2021-11-05 2023-05-12 중앙대학교 산학협력단 전처리 네트워크를 이용한 이미지 내 작은 객체 검출률 향상 시스템 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940001011B1 (ko) * 1988-10-14 1994-02-08 닛뽕에야브레끼 가부시끼가이샤 선박용 주기관의 회전수 제어장치
KR20040015613A (ko) * 2002-08-13 2004-02-19 삼성전자주식회사 인공 신경망을 이용한 얼굴 인식 방법 및 장치
KR20130066444A (ko) * 2011-12-12 2013-06-20 한국전자통신연구원 자동차 번호판 내에서 문자 영역을 추출하기 위한 장치 및 그 방법
KR101401028B1 (ko) 2014-03-05 2014-05-29 (주)지란지교소프트 이미지 내 개인 정보 보호 방법
KR20150130253A (ko) 2014-05-13 2015-11-23 주식회사 엔피코어 정보 유출 방지를 위한 이미지 적응적 비정형 개인 정보 추출 방법 및 이를 수행하는 장치
KR101721063B1 (ko) 2016-12-02 2017-03-29 충남대학교산학협력단 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940001011B1 (ko) * 1988-10-14 1994-02-08 닛뽕에야브레끼 가부시끼가이샤 선박용 주기관의 회전수 제어장치
KR20040015613A (ko) * 2002-08-13 2004-02-19 삼성전자주식회사 인공 신경망을 이용한 얼굴 인식 방법 및 장치
KR20130066444A (ko) * 2011-12-12 2013-06-20 한국전자통신연구원 자동차 번호판 내에서 문자 영역을 추출하기 위한 장치 및 그 방법
KR101401028B1 (ko) 2014-03-05 2014-05-29 (주)지란지교소프트 이미지 내 개인 정보 보호 방법
KR20150130253A (ko) 2014-05-13 2015-11-23 주식회사 엔피코어 정보 유출 방지를 위한 이미지 적응적 비정형 개인 정보 추출 방법 및 이를 수행하는 장치
KR101721063B1 (ko) 2016-12-02 2017-03-29 충남대학교산학협력단 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102104238B1 (ko) * 2018-10-19 2020-04-24 한국과학기술연구원 광변조기 기반 구조 조명 현미경 시스템 및 상기 시스템에 의해 수행되는 이미지 생성 방법
KR102309708B1 (ko) 2019-01-25 2021-10-08 주식회사 스트라드비젼 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
KR20200092845A (ko) * 2019-01-25 2020-08-04 주식회사 스트라드비젼 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
KR102200608B1 (ko) * 2019-07-03 2021-01-08 영남대학교 산학협력단 문자 검출 장치 및 방법
KR102201930B1 (ko) * 2019-11-07 2021-01-12 신현준 문서 정보를 포함한 이미지 파일의 자동 문서화 장치 및 방법
CN111191730A (zh) * 2020-01-02 2020-05-22 中国航空工业集团公司西安航空计算技术研究所 一种面向嵌入式深度学习的超大尺寸图像目标检测方法及***
WO2021230680A1 (en) * 2020-05-13 2021-11-18 Pireco Co,. Ltd. Method and device for detecting object in image
KR102309562B1 (ko) * 2020-12-30 2021-10-06 주식회사 애자일소다 Pdf 테이블 재구성 장치 및 그 동작 방법
KR20220126560A (ko) 2021-03-09 2022-09-16 국민대학교산학협력단 이중 임계범위 기반의 객체 추출장치 및 그 방법
WO2022265467A1 (ko) * 2021-06-18 2022-12-22 삼성전자 주식회사 이미지 내의 객체를 검출하기 위한 전자 장치 및 방법
KR20230065610A (ko) 2021-11-05 2023-05-12 중앙대학교 산학협력단 전처리 네트워크를 이용한 이미지 내 작은 객체 검출률 향상 시스템 및 방법
CN115393595A (zh) * 2022-10-27 2022-11-25 福思(杭州)智能科技有限公司 分割网络模型训练方法、车道线检测方法和电子装置
CN115393595B (zh) * 2022-10-27 2023-02-03 福思(杭州)智能科技有限公司 分割网络模型训练方法、车道线检测方法、装置和介质

Similar Documents

Publication Publication Date Title
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
US11657602B2 (en) Font identification from imagery
Nakamura et al. Scene text eraser
JP6050223B2 (ja) 画像認識装置、画像認識方法、及び集積回路
US11106903B1 (en) Object detection in image data
CN110232713B (zh) 一种图像目标定位修正方法及相关设备
Bhunia et al. Text recognition in scene image and video frame using color channel selection
Liu et al. Bipartite differential neural network for unsupervised image change detection
Raghavan et al. Optimized building extraction from high-resolution satellite imagery using deep learning
CN112381775A (zh) 一种图像篡改检测方法、终端设备及存储介质
US20200410235A1 (en) Ventral-dorsal neural networks: object detection via selective attention
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN113361495A (zh) 人脸图像相似度的计算方法、装置、设备及存储介质
He et al. Aggregating local context for accurate scene text detection
Lin et al. Face detection and segmentation with generalized intersection over union based on mask R-CNN
JP2019220014A (ja) 画像解析装置、画像解析方法及びプログラム
Moseva et al. Development of a System for Fixing Road Markings in Real Time
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
Mu et al. Finding autofocus region in low contrast surveillance images using CNN-based saliency algorithm
Ghandour et al. Building shadow detection based on multi-thresholding segmentation
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant