KR20190143527A

KR20190143527A - 머신 러닝을 통한 영상 인식을 위한 장치 및 방법

Info

Publication number: KR20190143527A
Application number: KR1020180066194A
Authority: KR
Inventors: 강동중
Original assignee: 부산대학교 산학협력단
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2019-12-31
Also published as: KR102102405B1

Abstract

본 발명은 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있도록 한 머신 러닝을 통한 영상 인식을 위한 장치 및 방법에 관한 것으로, 탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 하고, 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하고, 탐지할 물체의 평균 크기 분석을 수행하여 넷 구조를 결정하는 데이터 전처리부;학습,검증,테스트 데이터 처리를 하는 소스 데이터 처리부;데이터 셋과 정보를 인코딩한 파일을 출력하는 바이너리 파일 생성부;강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하여 가장 높은 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 수행하는 옵션 결정부;옵션 결정부에서 결정된 모델 옵션을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링하고 학습 완료된 모델을 저장하는 학습 실행부;를 포함하는 것이다.

Description

머신 러닝을 통한 영상 인식을 위한 장치 및 방법{System and Method for Recognitioning Image Pattern using Machine Learning}

본 발명은 영상 인식에 관한 것으로, 구체적으로 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있도록 한 머신 러닝을 통한 영상 인식을 위한 장치 및 방법에 관한 것이다.

인공 지능(Artificial Intelligence, AI)은 인간의 뇌와 뉴런 신경망을 모방해 언젠가는 컴퓨터나 로봇들이 인간처럼 사고하고 행동하게 하는 것이다.

예를 들어, 우리는 사진만으로 개와 고양이를 아주 쉽게 구분할 수 있지만, 컴퓨터는 구분하지 못한다.

이를 위해 머신 러닝(Machine Learning, ML) 기법이 고안되었는데, 이 기법은 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 기술로서, 저장된 개 사진과 비슷한 사진이 입력되면, 이를 개 사진이라고 컴퓨터가 분류하도록 하는 것이다.

데이터를 어떻게 분류할 것인가에 따라, 의사결정 나무(Decision Tree)나 베이지안 망(Bayesian network), 서포트 벡터 머신(support vector machine, SVM), 그리고 인공 신경망(Artificial neural network) 등 많은 머신러닝 알고리즘이 등장했다.

그 중에 인공 신경망 알고리즘에서 파생된 딥 러닝(Deep Learning, DL)은 인공 신경망을 이용하여 데이터를 군집화하거나 분류하는데 사용하는 기술이다.

머신 러닝과 인지 과학에서의 인공 신경망은 생물학의 신경망(동물의 중추 신경계)에서 영감을 얻은 통계학적 학습 알고리즘이다.

인공 신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(node)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다.

이와 같은 머신 러닝(Machine Learning, ML) 기법은 영상 인식, 음성 인식, 데이터 마이닝, 지능형 로봇 등 다양한 분야에서 폭넓게 활용되고 있다.

특히, 영상 인식 분야에서는 인간의 인식 정확도를 웃도는 수치를 달성하였다.

이처럼 머신 러닝(Machine Learning, ML) 기법은 작업에 대한 높은 완성도를 제공하지만 그에 따른 높은 연산량도 요구된다.

예를 들어, 물체 위치 탐지 및 부류 결정 문제가 주어졌을 때, 효과적인 학습을 통해 이를 해결하기 위해서는 학습에 사용되는 다양한 옵션을 결정해야 한다.

사용자가 선택해야 하는 옵션의 종류는 아주 많으며(수십 가지 이상) 이러한 옵션의 선택은 하나하나가 학습과 성능에 영향을 미치게 된다.

이러한, 옵션 선택은 주어진 문제의 종류나 응용 필드, 데이터 타입, 사용할 딥 넷 종류, 학습률, 데이터 증강 적용 여부 등의 다양한 요소에서 발생하고 영향을 받는다.

학습을 진행하는 사람은 오랜 기간 딥러닝 학습을 수행해온 경험을 통해 주어진 문제를 분석하여 최적 옵션을 선택하고 있으며, 또한 개발사에서 제공하는 기본 예제들과 사례들을 살펴봄에 의해 옵션들을 선택하게 된다.

이 과정을 위해 사용자가 긴 시간을 투입해야 하며 숙련된 데이터 분석 능력을 요구하고 있다.

그러나 이런 과정을 통해서도 풀어야할 문제를 효과적으로 해결하기 위한 최적 옵션 선택은 현실적으로 불가능하다.

예를 들어, 적용 가부(2가지 상태)만을 가진 옵션이 10가지이고 각 옵션들의 적용 가부에 따른 효과를 테스트한다고 가정하면, 각 옵션의 우선순위에 대한 경우의 수와 가부의 곱인 9! * 2¹⁰가지의 경우의 수가 생기고 이러한 모든 경우에 대해 각각 학습을 수행하고 결과를 분석, 테스트하기는 불가능하다.

따라서, 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정에 관한 새로운 기술의 개발이 요구되고 있다.

한국등록특허 제10-1850286호 한국공개특허 제10-2016-0122452호 한국공개특허 제10-2010-0129783호

본 발명은 이와 같은 종래 기술의 머신 러닝을 이용하는 영상 인식 기술의 문제를 해결하기 위한 것으로, 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있도록 한 머신 러닝을 통한 영상 인식을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 구글의 tensorflow 프레임웍을 사용하여 사용자가 탐지하기를 원하는 물체의 위치와 부류를 딥러닝 기술을 이용하여 판별할 수 있도록 한 머신 러닝을 통한 영상 인식을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 Object의 분포 분석하고, ROI SEL 모듈을 이용하여 실제 처리할 부분을 추출하고, 실시간 처리요구속도 분석, User setting, 물체의 평균크기 분석, 물체가 영상에서 차지하는 비율분석을 통한 적합한 구조 선정을 하는 전처리 구성을 포함하는 머신 러닝을 통한 영상 인식을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 학습이 적절한지에 대한 보상값과 현재 상태 분석, 옵션 및 순서 생성, 모델 학습과 정확도 검증, 산출한 모델 옵션 저장 및 보상값을 컨트롤러로 전송하는 과정을 반복하여 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정 구성을 포함하는 머신 러닝을 통한 영상 인식을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치는 탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 하고, 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하고, 탐지할 물체의 평균 크기 분석을 수행하여 넷 구조를 결정하는 데이터 전처리부;학습,검증,테스트 데이터 처리를 하는 소스 데이터 처리부;데이터 셋과 정보를 인코딩한 파일을 출력하는 바이너리 파일 생성부;강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하여 가장 높은 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 수행하는 옵션 결정부;옵션 결정부에서 결정된 모델 옵션을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링하고 학습 완료된 모델을 저장하는 학습 실행부;를 포함하는 것을 특징으로 한다.

여기서, 데이터 전처리부는, 영상 내 물체의 존재 위치나 위치의 분포를 분석하는 오브젝트 분포 분석부(OBJ LOC DISTRIB) 및 오브젝트 분포 분석부(OBJ LOC DISTRIB)의 오브젝트 분포 분석 결과에 따라 실제 처리할 부분을 추출하는 관심 영역 선택부(ROI SEL)와,검사기기의 실시간 처리 요구속도를 분석하는 처리 요구속도 분석부(TAC-TIME EVAL) 및 딥 넷(Deep-Net) 구성에 요구되는 유저 세팅을 하는 유저 세팅부(USER SETTING)와,물체의 평균크기 분석을 하는 크기 분석부(OBJ SIZE EVAL) 및 물체가 영상에서 차지하는 비율 분석을 하는 비율 분석부(OBJ-IMG RATIO EVAL)와,오브젝트 분포,처리 요구속도,물체 평균 크기,물체 비율 분석을 기초로 적합한 넷 구조를 결정하는 넷 구조 결정부(DEEP-NET STRUC DECESION)를 포함하는 것을 특징으로 한다.

그리고 소스 데이터 처리부는, 학습, 검증, 테스트 데이터 셋을 처리하는 이미지 데이터 처리부(Image data)와,데이터셋의 Label 정보를 처리하는 XML 파일 처리부(XML Files)와,Deep-Net 정보를 관리하는 모델 관리부(Model Config)와,학습 파라미터 정보를 처리하는 학습 파라미터 정보 처리부(Train Config)와,검증 파라미터 정보를 처리하는 검증 파라미터 정보 처리부(EvalConfig)와,데이터 셋 경로 관리를 하는 데이터 셋 경로 관리부(Input Config)를 포함하는 것을 특징으로 한다.

그리고 옵션 결정부는, 학습이 적절한지에 대한 보상값과 현재 상태를 분석하는 컨트롤러(Controller)와,데이터 변동(Data augmentation) 옵션 및 순서를 생성하는 옵션 샘플러(Data Aug Opt sampler)와,학습 환경(Train Config)을 갱신하는 업데이트부(Train Config Update)와, 학습 실행부(Tensorflow Object Detection API)에 필요한 모델을 소스 데이터로부터 불러와 구성하는 모델 구성부(Model Construction)와,모델 학습과 정확도를 검증하는 검증부(Train & Eval)와,정확도를 분석후 데이터 변동(Data augmentation) 옵션을 버퍼에 저장하는 옵션 저장부(Save Aug Opt)와,가장 높은 정확도를 산출한 모델 옵션을 저장하는 최적 옵션 저장부(Best Option)와,정확도로부터 구해진 보상값을 컨트롤러(Controller)에 제공하는 보상값 제공부(RewardCAL)를 포함하는 것을 특징으로 한다.

그리고 옵션 결정부는, 공간에서 하나의 샘플을 선택했을 때, 이 샘플이 표현하는 옵션의 결합을 통해 학습기의 성능을 평가하고, 평가 성능을 강화학습의 보상(reward)으로 이용하여 Policy gradient 기반으로 최적 분포를 탐지하는 것을 특징으로 한다.

그리고 옵션 결정부는, 탐지 알고리즘으로 LSTM 망(Long Short Term Memory networks)을 사용하고, LSTM 망의 출력은 시간 항(time step)에 따라 홀수항은 옵션선택, 짝수항은 해당 옵션의 가부를 선택하는 것을 특징으로 한다.

그리고 학습 실행부(Final Tensorflow Object Detection API)는, 옵션 결정부에서 결정된 모델 옵션을 이용하여 학습을 하는 학습부(Train Stage)와,학습 과정에서의 모델 성능을 평가하는 모델 평가부(Evaluation State)와,학습 과정과 평가 과정을 모니터링하는 모니터링부(Tensorboard)와,학습 완료된 모델을 저장하는 모델 저장부(ModelExporter)를 포함하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 방법은 탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 하고, 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하고, 탐지할 물체의 평균 크기 분석을 수행하여 넷 구조를 결정하는 데이터 전처리 단계;학습,검증,테스트 데이터 처리를 하는 소스 데이터 처리 단계;데이터 셋과 정보를 인코딩한 파일을 출력하는 바이너리 파일 생성 단계;강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하여 가장 높은 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 수행하는 옵션 결정 단계;옵션 결정 단계에서 결정된 모델 옵션을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링하고 학습 완료된 모델을 저장하는 학습 실행 단계;를 포함하는 것을 특징으로 한다.

여기서, 데이터 전처리 단계는, 영상 내 물체의 존재 위치나 위치의 분포를 분석하는 오브젝트 분포 분석 단계와,오브젝트 분포 분석 결과에 따라 실제 처리할 부분을 추출하는 관심 영역 선택 단계와,검사기기의 실시간 처리 요구속도를 분석하는 처리 요구속도 분석 단계와,Deep-Net 구성에 요구되는 유저 세팅을 하는 유저 세팅 단계와,물체의 평균크기 분석을 하는 크기 분석 단계 및, 물체가 영상에서 차지하는 비율 분석을 하는 비율 분석 단계를 포함하는 것을 특징으로 한다.

그리고 옵션 결정 단계는, 학습이 적절한지에 대한 보상값과 현재 상태를 분석하는 단계와,데이터 변동(Data augmentation) 옵션 및 순서를 생성하는 단계와,학습 환경(Train Config)을 갱신하는 업데이트 단계와,학습 실행부(Tensorflow Object Detection API)에 필요한 모델을 소스 데이터로부터 불러와 구성하는 모델 구성 단계와,모델 학습과 정확도를 검증하는 검증 단계와,정확도를 분석후 데이터 변동(Data augmentation) 옵션을 버퍼에 저장하는 옵션 저장 단계와,가장 높은 정확도를 산출한 모델 옵션을 저장하는 최적 옵션 저장 단계와,정확도로부터 구해진 보상값을 컨트롤러(Controller)에 제공하는 보상값 제공 단계를 포함하는 것을 특징으로 한다.

이와 같은 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치 및 방법은 다음과 같은 효과를 갖는다.

첫째, 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있도록 한다.

둘째, 구글 tensorflow 프레임웍을 사용하여 사용자가 딥러닝 기술에 대한 전문적 지식 없이 탐지를 원하는 물체의 위치와 부류에 최적화된 모델과 옵션 결정을 할 수 있도록 한다.

셋째, 학습이 적절한지에 대한 보상값과 현재 상태 분석, 옵션 및 순서 생성, 모델 학습과 정확도 검증, 산출한 모델 옵션 저장 및 보상값을 컨트롤러로 전송하는 과정을 반복하여 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있다.

도 1은 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치의 구성도
도 2 내지 도 5는 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치의 상세 구성도
도 6은 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 방법을 나타낸 플로우 차트

이하, 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치의 구성도이고, 도 2 내지 도 5는 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치의 상세 구성도이다.

본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치 및 방법은 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있도록 한 것이다.

이를 위하여 본 발명은 Object의 분포 분석하고, ROI SEL 모듈을 이용하여 실제 처리할 부분을 추출하고, 실시간 처리요구속도 분석, User setting, 물체의 평균크기 분석, 물체가 영상에서 차지하는 비율분석을 통한 적합한 구조 선정을 하는 전처리 구성을 포함할 수 있다.

본 발명은 학습이 적절한지에 대한 보상값과 현재 상태 분석, 옵션 및 순서 생성, 모델 학습과 정확도 검증, 산출한 모델 옵션 저장 및 보상값을 컨트롤러로 전송하는 과정을 반복하여 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정 구성을 포함할 수 있다.

본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치는 도 1에서와 같이, 탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 하고, 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하고, 탐지할 물체의 평균 크기 분석을 수행하여 넷 구조를 결정하는 데이터 전처리부(100)와, 학습,검증,테스트 데이터 처리를 하는 소스 데이터 처리부(200)와, 데이터 셋과 정보를 인코딩한 파일을 출력하는 바이너리 파일 생성부(300)와, 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하여 가장 높은 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 수행하는 옵션 결정부(400)와, 옵션 결정부(400)에서 결정된 모델 옵션을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링하고 학습 완료된 모델을 저장하는 학습 실행부(500)를 포함한다.

데이터 전처리부(100)의 구성은 도 2에서와 같다.

데이터 전처리부(100)는 Binary vision 및 Blob detector package detector를 통하여 영상 내 물체의 존재 위치나 위치의 분포를 분석하는 오브젝트 분포 분석부(OBJ LOC DISTRIB)(10)와, 오브젝트 분포 분석부(OBJ LOC DISTRIB)(10)의 오브젝트 분포 분석 결과에 따라 실제 처리할 부분을 추출하는 관심 영역 선택부(ROI SEL)(13)와, 검사기기의 실시간 처리 요구속도를 분석하는 처리 요구속도 분석부(TAC-TIME EVAL)(11)와, Deep-Net 구성에 요구되는 유저 세팅을 하는 유저 세팅부(USER SETTING)(14)와, 물체의 평균크기 분석을 하는 크기 분석부(OBJ SIZE EVAL)(12)와, 물체가 영상에서 차지하는 비율 분석을 하는 비율 분석부(OBJ-IMG RATIO EVAL)(15)와, 오브젝트 분포,처리 요구속도,물체 평균 크기,물체 비율 분석을 기초로 적합한 넷 구조를 결정하는 넷 구조 결정부(DEEP-NET STRUC DECESION)(16)를 포함한다.

데이터 전처리부(100)는 옵션 결정부(400)에서의 옵션 결정을 보조하고, 미리 사용자가 선택해 주거나, 학습할 데이터의 분석을 통해 결정할 수 있는 선 결정 옵션들에 관한 처리를 하는 것이다.

오브젝트 분포 분석부(OBJ LOC DISTRIB)(10)는 탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 수행하는 것이다.

탐지할 물체의 크기가 테스트 할 전체 영상 크기에 비해 작은 경우, 전체 영상을 뒤져서 물체를 탐지할 경우, 탐지 성능이 떨어지게 되는데, 이 경우, 물체가 존재할 가능성이 높은 가방이나 상자, 팩키지 등의 위치를 먼저 얻어 내는 것이 필요하다.

또한, 센서의 종류에 따라 영상 내 상하의 마진 일부, 좌우나 중심에서의 일부분은 물체가 항상 존재하지 않는 영역이 있을 수 있고, 이러한 영역을 모두 탐지하는 것은 계산량이나 탐지 성능 면에서 비 효율적이다.

이와 같은 문제를 해결하기 위하여 오브젝트 분포 분석부(OBJ LOC DISTRIB)(10)는 영상 내 물체의 존재 위치나 위치의 분포를 분석하여 관심 영역 선택부(ROI SEL)(13)에서 탐지할 ROI(Region Of Interest)영역을 선택할 수 있도록 하는 것이다.

그리고 처리 요구속도 분석부(TAC-TIME EVAL)(11)는 검사기기의 실시간 처리 요구속도를 분석하는 것이다.

적용할 검사 기기의 실시간 요구 사항은 응용 분야에 따라 달라지는데, 빠른 탐지 속도를 요구하는 시스템이 있는 반면에, 속도는 느려도 정확도가 더 중요한 시스템도 있다.

처리 속도와 성능은 서로 tradeoff 관계이며 이에 따라 딥러닝 학습에 적용할 신경망 네트웍의 구조를 선택할 수 있다.

즉, 처리 요구속도 분석부(TAC-TIME EVAL)(11)는 유저 세팅부(USER SETTING)(14)를 통하여 처리 속도가 느린 대신 성능이 높은 넷 구조, 속도가 빠른 대신 성능의 손실이 일부 있는 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하기 위한 것이다.

그리고 크기 분석부(OBJ SIZE EVAL)(12)는 탐지할 물체의 평균 크기 분석을 수행하는 것으로, 탐지 대상 물체가 영상에서 차지하는 평균 비율을 물체 크기의 종횡비와 영역의 분포 분석을 통해 결정할 수 있도록 한다.

그리고 넷 구조 결정부(DEEP-NET STRUC DECESION)(16)는 오브젝트 분포 분석부(OBJ LOC DISTRIB)(10), 처리 요구속도 분석부(TAC-TIME EVAL)(11), 크기 분석부(OBJ SIZE EVAL)(12)의 분석 결과를 기초하여 적용할 최적의 넷 구조를 결정한다.

그리고 소스 데이터 처리부(200)의 상세 구성은 도 3에서와 같다.

도 3에서와 같이, 소스 데이터 처리부(200)는 학습, 검증, 테스트 데이터 셋을 처리하는 이미지 데이터 처리부(Image data)와, 데이터셋의 Label 정보를 처리하는 XML 파일 처리부(XML Files)와, Deep-Net 정보를 관리하는 모델 관리부(Model Config)와, 학습 파라미터 정보를 처리하는 학습 파라미터 정보 처리부(Train Config)와, 검증 파라미터 정보를 처리하는 검증 파라미터 정보 처리부(EvalConfig)와, 데이터 셋 경로 관리를 하는 데이터 셋 경로 관리부(Input Config)를 포함한다.

그리고 옵션 결정부(Optimal Option Selector)(400)의 상세 구성은 도 4에서와 같다.

옵션 결정부(400)는 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하는 것으로, 학습이 적절한지에 대한 보상값과 현재 상태를 분석하는 컨트롤러(Controller)(41)와, Data augmentation 옵션 및 순서를 생성하는 옵션 샘플러(Data Aug Opt sampler)(42)와, Train Config를 갱신하는 업데이트부(Train Config Update)(43)와, Tensorflow Object Detection API에 필요한 model을 Source Data로부터 불러와 구성하는 모델 구성부(Model Construction)(44)와, 모델 학습과 정확도를 검증하는 검증부(Train & Eval)(45)와, 정확도를 분석후 Data augmentation 옵션을 Buffer에 저장하는 옵션 저장부(Save Aug Opt)(46)와, 가장 높은 정확도를 산출한 모델 Option을 저장하는 최적 옵션 저장부(Best Option)(47)와, 정확도로부터 구해진 적절한 보상값을 컨트롤러(Controller)(41)에 제공하는 보상값 제공부(RewardCAL)(48)를 포함하고, 이들 과정을 반복하여 최고의 정확도를 산출하는 Model 파라미터를 구하는 것이다.

여기서, Data augmentation은 이미지의 레이블을 변경하지 않고 픽셀을 변화 시키는 방법이며, 변형된 데이터를 이용하여 학습을 진행할 수 있도록 하는 것이다.

이와 같은 본 발명에 따른 옵션 결정부(400)는 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하는 것이다.

강화학습의 주요 알고리즘 중 Policy gradient 기법은 복잡한 다차원 공간에서 여러 인자들의 결합이 어떤 확률 분포를 표현한다고 가정할 때, 최적 분포를 이 분포에서 얻은 몇 개의 데이터 샘플링의 반복을 통해 얻을 수 있다는 가정을 이용하는 것이다.

선택 가능한 여러 옵션들은 각 옵션이 다차원 공간에서 하나의 축을 구성한다고 보고, 옵션들의 결합은 다차원 공간에서 성능에 대한 어떤 확률 분포를 이루게 된다.

공간에서 하나의 샘플을 선택했을 때, 이 샘플이 표현하는 옵션의 결합을 통해 학습기의 성능을 평가할 수 있으며, 평가 성능을 강화학습의 보상(reward)으로 이용하여 Policy gradient 기반으로 최적 분포를 탐지한다.

그리고 탐지 알고리즘(Controller)은 딥러닝 학습 기법 중의 하나인 LSTM 망(Long Short Term Memory networks) 등을 사용할 수 있다.

LSTM 망의 출력은 시간 항(time step)에 따라 홀수항은 옵션선택, 짝수항은 해당 옵션의 가부를 선택한다.

각 항의 출력은 다음 항의 입력 토큰으로 전달된다.

예를 들어, 5개의 옵션 리스트가 있을 때, 첫번째 출력은 5가지 중 하나의 옵션을 선택하고 선택된 옵션은 두번째 출력 항의 입력으로 전달되고, LSTM 망을 통한 두번째 출력은 선택된 옵션의 가부 여부를 출력하고, 두번째 항 출력은 다시 다음 항의 입력으로 전달하는 방식으로 진행된다.

출력된 옵션의 결합(Data Aug Opt Sampler)을 통해 학습 모델을 구성(Model Construction)하고 최적화 과정(Train & Eval)을 통해 가장 좋은 성능을 내는 분포를 출력(Best Option)하게 된다.

그리고 학습 실행부(500)의 상세 구성은 도 5에서와 같다.

학습 실행부(Final Tensorflow Object Detection API)(500)는 옵션 결정부(400)에서 결정된 모델 옵션을 이용하여 학습을 하는 학습부(Train Stage)(51)와, 학습 과정에서의 모델 성능을 평가하는 모델 평가부(Evaluation State)(52)와, 학습 과정과 평가 과정을 모니터링하는 모니터링부(Tensorboard)(53)와, 학습 완료된 모델을 저장하는 모델 저장부(ModelExporter)(54)를 포함한다.

이와 같은 구성을 갖는 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치의 처리 과정은 다음과 같다.

도 6은 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 방법을 나타낸 플로우 차트이다.

먼저, 탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 수행한다.(S601)

그리고 탐지 대상 물체가 영상에서 차지하는 평균 비율을 물체 크기의 종횡비와 영역의 분포 분석을 통해 결정하고(S602), 딥러닝 학습에 적용할 신경망 네트웍의 구조를 선정한다.(S603)

이어, 학습, 검증, 테스트 데이터 셋 처리 및 데이터 셋의 Label 정보, Deep-Net 정보, 학습 파라미터 정보, 검증 파라미터 정보, 데이터 셋 경로 처리를 하고, 데이터 셋과 정보를 인코딩한 파일 생성한다.(S604)

그리고 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 한다.(S605)

이어, 강화 학습 과정에서 얻은 Model Option을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링, 학습 완료된 모델을 저장한다.(S606)

여기서, 딥러닝 학습에 적용할 신경망 네트웍의 구조를 선정하기 위한 전처리 과정(S601)(S602)으로, Binary vision 및 Blob detector package detector를 통하여 영상 내 물체의 존재 위치나 위치의 분포를 분석하는 오브젝트 분포 분석 단계와, 오브젝트 분포 분석 결과에 따라 실제 처리할 부분을 추출하는 관심 영역 선택 단계와, 검사기기의 실시간 처리 요구속도를 분석하는 처리 요구속도 분석 단계와, Deep-Net 구성에 요구되는 유저 세팅을 하는 유저 세팅 단계와, 물체의 평균크기 분석을 하는 크기 분석 단계와, 물체가 영상에서 차지하는 비율 분석을 하는 비율 분석 단계를 포함할 수 있다.

그리고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 하는 단계(S605)는, 학습이 적절한지에 대한 보상값과 현재 상태를 분석하는 단계와, Data augmentation 옵션 및 순서를 생성하는 단계와, Train Config를 갱신하는 업데이트 단계와, Tensorflow Object Detection API에 필요한 model을 Source Data로부터 불러와 구성하는 모델 구성 단계와, 모델 학습과 정확도를 검증하는 검증 단계와, 정확도를 분석후 Data augmentation 옵션을 Buffer에 저장하는 옵션 저장 단계와, 가장 높은 정확도를 산출한 모델 Option을 저장하는 최적 옵션 저장 단계와, 확도로부터 구해진 적절한 보상값을 컨트롤러(Controller)에 제공하는 보상값 제공 단계를 포함할 수 있다.

이상에서 설명한 본 발명에 따른 머신 러닝을 통한 영상 인식을 위한 장치 및 방법은 강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하고 최고의 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 할 수 있도록 한 것이다.

이와 같은 본 발명은 구글의 tensorflow 프레임웍을 사용하여 사용자가 탐지하기를 원하는 물체의 위치와 부류를 딥러닝 기술을 이용하여 정확하게 판별할 수 있도록 한다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100. 데이터 전처리부 200. 소스 데이터 처리부
300. 바이너리 파일 생성부 400. 옵션 결정부
500. 학습 실행부

Claims

탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 하고, 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하고, 탐지할 물체의 평균 크기 분석을 수행하여 넷 구조를 결정하는 데이터 전처리부;
학습,검증,테스트 데이터 처리를 하는 소스 데이터 처리부;
데이터 셋과 정보를 인코딩한 파일을 출력하는 바이너리 파일 생성부;
강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하여 가장 높은 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 수행하는 옵션 결정부;
옵션 결정부에서 결정된 모델 옵션을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링하고 학습 완료된 모델을 저장하는 학습 실행부;를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
제 1 항에 있어서, 데이터 전처리부는,
영상 내 물체의 존재 위치나 위치의 분포를 분석하는 오브젝트 분포 분석부(OBJ LOC DISTRIB) 및 오브젝트 분포 분석부(OBJ LOC DISTRIB)의 오브젝트 분포 분석 결과에 따라 실제 처리할 부분을 추출하는 관심 영역 선택부(ROI SEL)와,
검사기기의 실시간 처리 요구속도를 분석하는 처리 요구속도 분석부(TAC-TIME EVAL) 및 딥 넷(Deep-Net) 구성에 요구되는 유저 세팅을 하는 유저 세팅부(USER SETTING)와,
물체의 평균크기 분석을 하는 크기 분석부(OBJ SIZE EVAL) 및 물체가 영상에서 차지하는 비율 분석을 하는 비율 분석부(OBJ-IMG RATIO EVAL)와,
오브젝트 분포,처리 요구속도,물체 평균 크기,물체 비율 분석을 기초로 적합한 넷 구조를 결정하는 넷 구조 결정부(DEEP-NET STRUC DECESION)를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
제 1 항에 있어서, 소스 데이터 처리부는,
학습, 검증, 테스트 데이터 셋을 처리하는 이미지 데이터 처리부(Image data)와,
데이터셋의 Label 정보를 처리하는 XML 파일 처리부(XML Files)와,
Deep-Net 정보를 관리하는 모델 관리부(Model Config)와,
학습 파라미터 정보를 처리하는 학습 파라미터 정보 처리부(Train Config)와,
검증 파라미터 정보를 처리하는 검증 파라미터 정보 처리부(EvalConfig)와,
데이터 셋 경로 관리를 하는 데이터 셋 경로 관리부(Input Config)를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
제 1 항에 있어서, 옵션 결정부는,
학습이 적절한지에 대한 보상값과 현재 상태를 분석하는 컨트롤러(Controller)와,
데이터 변동(Data augmentation) 옵션 및 순서를 생성하는 옵션 샘플러(Data Aug Opt sampler)와,
학습 환경(Train Config)을 갱신하는 업데이트부(Train Config Update)와,
학습 실행부(Tensorflow Object Detection API)에 필요한 모델을 소스 데이터로부터 불러와 구성하는 모델 구성부(Model Construction)와,
모델 학습과 정확도를 검증하는 검증부(Train & Eval)와,
정확도를 분석후 데이터 변동(Data augmentation) 옵션을 버퍼에 저장하는 옵션 저장부(Save Aug Opt)와,
가장 높은 정확도를 산출한 모델 옵션을 저장하는 최적 옵션 저장부(Best Option)와,
정확도로부터 구해진 보상값을 컨트롤러(Controller)에 제공하는 보상값 제공부(RewardCAL)를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
제 1 항 또는 제 4 항에 있어서, 옵션 결정부는,
공간에서 하나의 샘플을 선택했을 때, 이 샘플이 표현하는 옵션의 결합을 통해 학습기의 성능을 평가하고, 평가 성능을 강화학습의 보상(reward)으로 이용하여 Policy gradient 기반으로 최적 분포를 탐지하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
제 1 항 또는 제 4 항에 있어서, 옵션 결정부는,
탐지 알고리즘으로 LSTM 망(Long Short Term Memory networks)을 사용하고,
LSTM 망의 출력은 시간 항(time step)에 따라 홀수항은 옵션선택, 짝수항은 해당 옵션의 가부를 선택하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
제 1 항에 있어서, 학습 실행부(Final Tensorflow Object Detection API)는,
옵션 결정부에서 결정된 모델 옵션을 이용하여 학습을 하는 학습부(Train Stage)와,
학습 과정에서의 모델 성능을 평가하는 모델 평가부(Evaluation State)와,
학습 과정과 평가 과정을 모니터링하는 모니터링부(Tensorboard)와,
학습 완료된 모델을 저장하는 모델 저장부(ModelExporter)를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 장치.
탐지할 영상 내에서 물체가 놓여 있는 위치의 분포에 대한 분석을 하고, 넷 구조 등에 대한 세팅을 사용자가 선택할 수 있도록 하고, 탐지할 물체의 평균 크기 분석을 수행하여 넷 구조를 결정하는 데이터 전처리 단계;
학습,검증,테스트 데이터 처리를 하는 소스 데이터 처리 단계;
데이터 셋과 정보를 인코딩한 파일을 출력하는 바이너리 파일 생성 단계;
강화학습(reinforcement learning)기반의 탐색 기법을 옵션 탐색에 적용하여 가장 높은 정확도를 산출하는 모델 파라미터를 구하는 옵션 결정을 수행하는 옵션 결정 단계;
옵션 결정 단계에서 결정된 모델 옵션을 이용하여 학습을 하여 모델 성능 평가, 학습과정과 평가과정을 모니터링하고 학습 완료된 모델을 저장하는 학습 실행 단계;를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 방법.
제 8 항에 있어서, 데이터 전처리 단계는,
영상 내 물체의 존재 위치나 위치의 분포를 분석하는 오브젝트 분포 분석 단계와,
오브젝트 분포 분석 결과에 따라 실제 처리할 부분을 추출하는 관심 영역 선택 단계와,
검사기기의 실시간 처리 요구속도를 분석하는 처리 요구속도 분석 단계와,
Deep-Net 구성에 요구되는 유저 세팅을 하는 유저 세팅 단계와,
물체의 평균크기 분석을 하는 크기 분석 단계 및, 물체가 영상에서 차지하는 비율 분석을 하는 비율 분석 단계를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 방법.
제 8 항에 있어서, 옵션 결정 단계는,
학습이 적절한지에 대한 보상값과 현재 상태를 분석하는 단계와,
데이터 변동(Data augmentation) 옵션 및 순서를 생성하는 단계와,
학습 환경(Train Config)을 갱신하는 업데이트 단계와,
학습 실행부(Tensorflow Object Detection API)에 필요한 모델을 소스 데이터로부터 불러와 구성하는 모델 구성 단계와,
모델 학습과 정확도를 검증하는 검증 단계와,
정확도를 분석후 데이터 변동(Data augmentation) 옵션을 버퍼에 저장하는 옵션 저장 단계와,
가장 높은 정확도를 산출한 모델 옵션을 저장하는 최적 옵션 저장 단계와,
정확도로부터 구해진 보상값을 컨트롤러(Controller)에 제공하는 보상값 제공 단계를 포함하는 것을 특징으로 하는 머신 러닝을 통한 영상 인식을 위한 방법.