KR102026280B1

KR102026280B1 - 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템

Info

Publication number: KR102026280B1
Application number: KR1020180003511A
Authority: KR
Inventors: 손경성
Original assignee: 네이버 주식회사
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2019-11-26
Also published as: KR20190093752A

Abstract

딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템을 제공한다. 본 발명의 실시예들에 따른 씬 텍스트 검출 방법은 딥 러닝을 통해 이미지들을 분류함에 있어서, 텍스트 영역과 같은 ROI(Region Of Interest)의 후보 영역을 추출 및 판독할 수 있으며, 후보 영역을 딥 러닝을 위한 입력으로 이용하여 이미지의 씬 텍스트 포함 여부를 결정할 수 있다.

Description

딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템{METHOD AND SYSTEM FOR SCENE TEXT DETECTION USING DEEP LEARNING}

아래의 설명은 딥 러닝(deep learning)을 이용한 씬 텍스트 검출 방법 및 시스템에 관한 것으로, 보다 자세하게는 딥 러닝을 통해 이미지들을 분류함에 있어서, 텍스트 영역과 같은 ROI(Region Of Interest)의 후보 영역을 추출 및 판독할 수 있으며, 후보 영역을 딥 러닝을 위한 입력으로 이용하여 이미지의 씬 텍스트 포함 여부를 결정할 수 있는 씬 텍스트 검출 방법 및 상기 씬 텍스트 검출 방법을 수행하는 컴퓨터 장치, 그리고 컴퓨터와 결합되어 상기 씬 텍스트 검출 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램과 그 기록매체에 관한 것이다.

사진과 같은 이미지를 컨텐츠(일례로, 웹 상의 게시물)를 통해 노출할 때, 이미지 내에 글자나 로고 등이 과하게 포함되어 있으면 컨텐츠의 품질이 저하될 가능성이 있으며, 이미지가 본래 갖고 있는 정보가 왜곡되거나 또는 정보의 가치가 줄어들 가능성이 존재한다. 이에, 다양한 분야들에서 다수의 인적 자원들이 투입되어 이미지를 검수하고 있는 실정이다. 그러나, 인적 자원을 이용한 이미지 검수는 대부분 단순하고 반복된 작업이라 효율성이 낮으며, 많은 사회적, 물리적 비용이 발생하게 된다는 문제점이 있다.

한편, CNN(Convolutional Neural Network)과 같은 이미지 처리를 위한 딥 러닝(deep learning) 기술이 존재한다. 이러한 CNN은 입력을 필터로 이용하여 합성곱하여 특징을 추출하고 이러한 합성곱 레이어를 여러 계층으로 연결한다. 합성곱 레이어를 지날 때마다 저수준의 특징들이 점차 고수준의 특징들로 만들어지며, 마지막에는 완전 연결 레이어로 최종 결과를 학습한다. 그러나 이러한 CNN은 해당 이미지가 어떠한 종류의 이미지(일례로, 부동산 관련 이미지들에서 '방' 이미지, '빌딩' 이미지 등)인가를 인식하여 이미지들을 종류에 따라 분류함에 있어서는 뛰어난 성능을 보이는 반면, 이미지상에 삽입된 광고 문구 등과 같이 원하는 특정 부분만을 인식하여 해당 이미지가 '방' 이미지, '빌딩' 이미지에 광고 문구가 포함된 광고 이미지임을 식별하지는 못하는 실정이다.

한편, 이미지 내의 텍스트를 검출하기 위한 다양한 기술들이 존재한다. 예를 들어, 한국등록특허 제10-1732359호는 이미지 내의 텍스트를 검출하는 방법 및 장치에 관한 것으로, 복수의 픽셀들이 행렬 형태로 배치된 이미지를 획득하고, 에지 검출(edge detection) 알고리즘을 이용하여 이미지 내의 에지 픽셀들을 검출하고, 이미지 내의 동일한 행 또는 열에서 서로 인접한 에지 픽셀들 사이에 위치하는 픽셀들의 집합인 픽셀 스팬들(pixel spans)을 추출하며, 픽셀 스팬들 각각을 노드로 이용해서, 동일한 속성을 가지며 상호 연결된 픽셀 스팬들을 그룹화하여 블롭(blob)을 생성하는 이미지 내의 텍스트 검출 장치를 개시하고 있다.

그러나, 이러한 종래기술의 텍스트 검출 기술들은 단순히 주어진 이미지 내에 포함되어 있는 텍스트 자체를 인식하기 위한 기술일 뿐, 딥 러닝에서 인공지능(Artificial Intelligence, AI)이 이미지들을 분류함에 있어서 별도로 이미지 내에서 텍스트를 검출하여 해당 이미지들을 광고 이미지로 분류할 수 있는 기술을 제공하지는 못한다. 특히, 씬 텍스트는 단순히 텍스트만을 포함하는 것이 아니라, 기존 이미지를 배경으로 포함하고 있기 때문에 종래기술의 텍스트 검출 기술들에서는 인식율이 떨어진다는 문제점이 있다.

딥 러닝(deep learning)을 통해 이미지들을 분류함에 있어서, 텍스트 영역과 같은 ROI(Region Of Interest)의 후보 영역을 추출 및 판독할 수 있으며, 후보 영역을 딥 러닝을 위한 입력으로 이용하여 이미지의 씬 텍스트 포함 여부를 결정할 수 있는 씬 텍스트 검출 방법 및 상기 씬 텍스트 검출 방법을 수행하는 컴퓨터 장치, 그리고 컴퓨터와 결합되어 상기 씬 텍스트 검출 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램과 그 기록매체를 제공한다.

이미지를 입력받는 단계; 상기 입력된 이미지를 전처리하여 잡영을 제거하는 단계; 상기 잡영이 제거된 이미지에서 씬 텍스트의 검출을 위한 후보 영역을 추출하는 단계; 및 상기 추출된 후보 영역을 CNN(Convolutional Neural Network)의 입력으로 이용하여 상기 입력된 이미지에 대한 씬 텍스트 포함 여부를 결정하는 단계를 포함하는 씬 텍스트 검출 방법을 제공한다.

일측에 따르면, 입력된 이미지를 전처리하여 잡영을 제거하는 단계는, 상기 입력된 이미지를 그레이 스케일(gray scale) 이미지로 변환하는 단계; 상기 그레이 스케일 이미지에서 경계 이미지를 추출하는 단계; 및 상기 경계 이미지가 포함하는 경계에 팽창(dilation) 및 침식(erosion)을 순차적으로 적용하여 경계들 간의 거리가 기설정된 값 이하인 부분들 사이의 공간을 메우는 단계를 포함할 수 있다.

컴퓨터와 결합하여 상기 씬 텍스트 검출 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 제공한다.

상기 씬 텍스트 검출 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체를 제공한다.

컴퓨터 장치에 있어서, 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서에 의해, 이미지를 입력받고, 상기 입력된 이미지를 전처리하여 잡영을 제거하고, 상기 잡영이 제거된 이미지에서 씬 텍스트의 검출을 위한 후보 영역을 추출하고, 상기 추출된 후보 영역을 CNN(Convolutional Neural Network)의 입력으로 이용하여 상기 입력된 이미지에 대한 씬 텍스트 포함 여부를 결정하고, 상기 입력된 이미지를 전처리하여 잡영을 제거하기 위해, 상기 적어도 하나의 프로세서에 의해, 상기 입력된 이미지를 그레이 스케일(gray scale) 이미지로 변환하고, 상기 그레이 스케일 이미지에서 경계 이미지를 추출하고, 상기 경계 이미지가 포함하는 경계에 팽창(dilation) 및 침식(erosion)을 순차적으로 적용하여 경계들 간의 거리가 기설정된 값 이하인 부분들 사이의 공간을 메우는 것을 특징으로 컴퓨터 장치를 제공한다.

딥 러닝(deep learning)을 통해 이미지들을 분류함에 있어서, 텍스트 영역과 같은 ROI(Region Of Interest)의 후보 영역을 추출 및 판독할 수 있으며, 후보 영역을 딥 러닝을 위한 입력으로 이용하여 이미지의 씬 텍스트 포함 여부를 결정할 수 있다.

이미지들을 분류함에 있어서, 이미지의 씬 텍스트 포함 여부를 결정할 수 있게 됨에 따라, 특정 컨텐츠와 연관하여 업로드된 복수의 이미지들의 노출 우선순위를 결정함에 있어서, 이미지의 씬 텍스트 포함 여부를 활용할 수 있다. 예를 들어, 부동산 매물이나 호텔 등에 대한 정보를 제공함에 있어서, 업로드된 복수의 이미지들 중 광고를 포함하고 있는 이미지의 노출 우선순위를 낮출 수 있다.

도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서, 딥 러닝을 이용한 이미지 분류 과정의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 전처리 과정의 예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 있어서, 입력 이미지와 입력 이미지를 통해 생성된 그레이 스케일 이미지의 예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 있어서, 경계 이미지를 생성하는 예를 도시한 도면이다.
도 7은 본 발명의 일실시예에 있어서, 경계 이미지에 적응 임계값을 적용하는 예를 도시한 도면이다.
도 8은 본 발명의 일실시예에 있어서, 이진화된 흑백의 경계 이미지를 생성한 예를 도시한 도면이다.
도 9는 본 발명의 일실시예에 있어서, 흑백 이미지에서 경계 이미지를 추출하는 예를 도시한 도면이다.
도 10은 본 발명의 일실시예에 있어서, 모르프 클로즈를 통해 공간을 메우는 개략적인 예를 도시한 도면이다.
도 11은 본 발명의 일실시예에 있어서, 모르프 클로즈가 적용된 이미지의 예를 도시한 도면이다.
도 12는 본 발명의 일실시예에 있어서, 모르프 클로즈의 적용 전 이미지와 모르프 클로즈의 적용 후 이미지를 비교하는 예를 도시한 도면이다.
도 13은 본 발명의 일실시예에 있어서, 긴 선 제거의 적용 전후를 비교하는 예를 도시한 도면이다.
도 14는 본 발명의 일실시예에 있어서, 후보 영역을 추출하는 예를 도시한 도면이다.
도 15는 본 발명의 일실시예에 있어서, 후보 영역을 추출하여 CNN의 입력으로 활용하는 예를 도시한 도면이다.
도 16은 본 발명의 일실시예에 있어서, 학습 데이터의 예를 도시한 도면이다.
도 17은 본 발명의 일실시예에 있어서, 긍정 사례 데이터를 추출하는 예를 도시한 도면이다.
도 18은 본 발명의 일실시예에 있어서, 부정 사례 데이터를 추출하는 예를 도시한 도면이다.
도 19는 본 발명의 일실시예에 있어서, 씬 텍스트 검출 방법의 예를 도시한 흐름도이다.
도 20은 본 발명의 일실시예에 있어서, 전처리 방법의 예를 도시한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

본 발명의 실시예들에 따른 씬 텍스트 검출 시스템은 이후 설명될 전자 기기나 서버와 같은 컴퓨터 장치를 통해 구현될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 씬 텍스트 검출 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 씬 텍스트 검출 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.

도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다. 또한, 도 1의 네트워크 환경은 본 실시예들에 적용 가능한 환경들 중 하나의 예를 설명하는 것일 뿐, 본 실시예들에 적용 가능한 환경이 도 1의 네트워크 환경으로 한정되는 것은 아니다.

복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 네비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 도 1에서는 전자 기기 1(110)의 예로 스마트폰의 형상을 나타내고 있으나, 본 발명의 실시예들에서 전자 기기 1(110)은 실질적으로 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있는 다양한 물리적인 컴퓨터 장치들 중 하나를 의미할 수 있다.

통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 서버(150)는 네트워크(170)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 서비스(일례로, 소셜 네트워크 서비스, 메시징 서비스, 검색 서비스, 메일 서비스, 컨텐츠 제공 서비스 등)를 제공하는 시스템일 수 있다.

도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 앞서 설명한 복수의 전자 기기들(110, 120, 130, 140) 각각이나 서버들(150, 160) 각각은 도 2를 통해 도시된 컴퓨터 장치(200)에 의해 구현될 수 있으며, 일실시예에 따른 씬 텍스트 검출 방법은 이러한 컴퓨터 장치(200)에 의해 구현되는 씬 텍스트 검출 시스템에 의해 수행될 수 있다.

이러한 컴퓨터 장치(200)는 도 2에 도시된 바와 같이, 메모리(210), 프로세서(220), 통신 인터페이스(230) 그리고 입출력 인터페이스(240)를 포함할 수 있다. 메모리(210)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(200)에 포함될 수도 있다. 또한, 메모리(210)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(210)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(210)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(230)를 통해 메모리(210)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(170)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(200)의 메모리(210)에 로딩될 수 있다.

프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신 인터페이스(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(230)은 네트워크(170)를 통해 컴퓨터 장치(200)가 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(200)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(230)의 제어에 따라 네트워크(170)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(170)를 거쳐 컴퓨터 장치(200)의 통신 인터페이스(230)를 통해 컴퓨터 장치(200)로 수신될 수 있다. 통신 인터페이스(230)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(220)나 메모리(210)로 전달될 수 있고, 파일 등은 컴퓨터 장치(200)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

입출력 인터페이스(240)는 입출력 장치(250)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(250)는 컴퓨터 장치(200)와 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 장치(200)는 도 2의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(200)는 상술한 입출력 장치(250) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

도 3은 본 발명의 일실시예에 있어서, 딥 러닝을 이용한 이미지 분류 과정의 예를 도시한 도면이다. 이미 설명한 바와 같이, CNN(Convolutional Neural Network, 310)은 CNN(310)으로 입력되는 이미지 전체에 대한 분석을 통해 입력되는 이미지의 분류에 있어서는 뛰어난 성능을 보이는 반면, 입력되는 이미지에서 사용자가 원하는 특정 부분을 통해 이미지를 분류하지는 못한다. 이에 본 실시예에서는 입력 이미지(320)에 대한 전처리(330)를 통해 씬 텍스트가 포함되어 있을 것으로 판단되는 적어도 하나의 후보 영역(340)을 결정하고, 후보 영역(340)의 이미지를 크롭(crop)하여 CNN(310)의 입력으로 활용할 수 있다. 전처리(330)는 이후 설명하는 방법을 통해 이미지 내에 씬 텍스트가 포함된 영역을 매우 높은 확률로 추출할 수 있다.

도 4는 본 발명의 일실시예에 따른 전처리 과정의 예를 도시한 도면이다. 본 실시예에 따른 전처리 과정은 크게 여섯 가지의 과정을 포함할 수 있다.

색 잡영 제거(410) 과정은 입력 이미지(320)를 그레이 스케일 이미지(411)로 변환하는 과정일 수 있다. 일례로, 컴퓨터 장치(200)는 입력 이미지(320)가 주어지면, 입력 이미지(320)의 RGB 값을 그레이 스케일의 값으로 변경할 수 있다. 이 경우, 색 잡영 제거 과정(410)의 결과로 그레이 스케일 이미지(411)가 생성될 수 있다.

모르프 그래디언트(Morph Gradient, 420) 과정은 그레이 스케일 이미지(411)에서 제1 경계 이미지(421)를 추출하는 과정일 수 있다. 일례로, 컴퓨터 장치(200)는 그레이 스케일 이미지(411)에서 사물의 경계에 팽창(dilation)을 적용한 결과와 그레이 스케일 이미지(411)에서 사물의 경계에 침식(erosion)을 적용한 결과의 차이에 기반하여 경계가 강화된 이미지를 제1 경계 이미지(421)로서 추출할 수 있다. 팽창은 이미지의 선들을 두껍게 만들어 주는 이미지 처리 기법이며, 침식은 이미지의 선들을 얇게 만들어주는 이미지 기법이다. 컴퓨터 장치(200)는 이러한 팽창과 침식을 통해 각각 변경된 이미지의 선들의 차이에 기반하여 강화된 경계의 이미지를 제1 경계 이미지(421)로서 추출할 수 있다.

적응 임계값(Adaptive Threshold, 430) 과정은 제1 경계 이미지(421)에 적응 임계값을 적용하여 제1 잡영을 제거하는 과정일 수 있다. 예를 들어, 컴퓨터 장치(200)는 제1 경계 이미지(421)의 픽셀들 중 기설정된 임계값 미만의 값을 갖는 픽셀을 검정색으로 변환하고, 상기 임계값 이상의 값을 갖는 픽셀을 흰색으로 변환하는 방식으로 제1 잡영을 제거할 수 있다. 그 결과로 제1 잡영이 제거된 경계 이미지인 제2 경계 이미지(431)가 생성될 수 있다.

모르프 클로즈(Morph Close, 440) 과정은 제2 경계 이미지(431)가 포함하는 경계에 팽창(dilation) 및 침식(erosion)을 순차적으로 적용하여 경계들 간의 거리가 기설정된 값 이하인 부분들 사이의 공간을 메우는 과정일 수 있다. 그 결과로 작은 구멍들이 메워지고 경계가 강화된 이미지인 제3 경계 이미지(441)가 생성될 수 있다.

긴 선 제거(Long Line Remove, 450) 과정은 제3 경계 이미지(441)에서 기설정된 길이 이상의 선을 제2 잡영으로서 제거하는 과정일 수 있다. 그 결과로 제2 잡영이 제거된 이미지인 제4 경계 이미지(451)가 생성될 수 있다. 이처럼 일정 길이 이상의 선을 제거하는 것은 씬 텍스트의 후보 영역이 길이가 긴 선에 의해 불필요하게 커지는 현상을 막을 수 있다.

윤곽(Contour) 추출(460) 과정은 제4 경계 이미지(451)에서 씬 텍스트의 후보 영역을 추출하는 과정일 수 있다. 일례로, 컴퓨터 장치(200)는 공개 소스 컴퓨터 비전(Open Source Computer Vision, OpenCV)의 메서드 'findContours()'를 이용하여 제4 경계 이미지(451)에서 적어도 하나의 후보 영역을 추출할 수 있다. 도 3을 통해 설명한 바와 같이 크롭되는 후보 영역의 이미지는 CNN(310)으로 입력되어 CNN(310)이 후보 영역에 씬 텍스트가 포함되어 있는지 확인하는데 이용될 수 있다.

도 5는 본 발명의 일실시예에 있어서, 입력 이미지와 입력 이미지를 통해 생성된 그레이 스케일 이미지의 예를 도시한 도면이다. 도 5에서 제1 이미지(510)와 제2 이미지(520)는 도 4를 통해 설명한 입력 이미지(320) 및 그레이 스케일 이미지(411)에 각각 대응할 수 있다. 입력 이미지(320)의 색상 역시 씬 텍스트를 찾는 과정에서는 잡영이 될 수 있기 때문에, 입력 이미지(320)에 대한 전처리(330)는 이러한 색 잡영을 제거하기 위한 과정을 포함할 수 있다.

도 6은 본 발명의 일실시예에 있어서, 경계 이미지를 생성하는 예를 도시한 도면이다. 도 6에서 제1 이미지(610)는 도 5의 제2 이미지(520)에 팽창을 적용한 예를 나타내고 있으며, 제2 이미지(620)는 도 5의 제2 이미지(520)에 침식을 적용한 예를 나타내고 있다. 앞서 설명한 바와 같이, 팽창은 이미지의 선들을 두껍게 만들어 주는 이미지 처리 기법이며, 침식은 이미지의 선들을 얇게 만들어주는 이미지 기법이다. 컴퓨터 장치(200)는 이러한 팽창과 침식을 통해 각각 변경된 제1 이미지(610)와 제2 이미지(620)의 선들의 차이에 기반하여 강화된 경계의 이미지를 경계 이미지(630)로서 추출할 수 있다.

도 7은 본 발명의 일실시예에 있어서, 경계 이미지에 적응 임계값을 적용하는 예를 도시한 도면이다. 임계값은 글로벌 임계값(Global Threshold)과 적응 임계값(Adaptive Threshold)로 나눌 수 있다.

글로벌 임계값을 적용하는 경우에는 이미지 전체에 글로벌 임계값이 동일하게 적용되어 버려지는 영역이 많아지게 된다. 도 7은 'Original' 이미지(710), 그리고 'Original' 이미지(710)에 글로벌 임계값을 적용한 'Global' 이미지(720)를 도시하고 있으며, 글로벌 임계값의 일괄적인 적용에 따라 픽셀이 검정색으로 변환된 부분이 많아지고, 그에 따라 버려지는 영역이 많아지게 된 모습을 나타내고 있다.

한편, 적응 임계값은 이미지의 영역을 적절히 분할하고, 각 영역에 적합한 임계값을 적용하는 방식으로, 도 7의 'Mean' 이미지(730)와 'Gaussian' 이미지와 같이 글로벌 임계값을 사용하는 경우보다 상대적으로 더 좋은 결과가 도출됨을 알 수 있다.

도 8은 본 발명의 일실시예에 있어서, 이진화된 흑백 이미지를 생성한 예를 도시한 도면이다. 도 8은 입력 이미지인 제1 이미지(810)에서 바로 흑과 백으로 이진화된 흑백 이미지(820)를 생성하는 예를 나타내고 있다. 이 경우, 도 4를 통해 설명한 적응 임계값(430) 과정은 생략될 수도 있다.

도 9는 본 발명의 일실시예에 있어서, 흑백 이미지에서 경계 이미지를 추출하는 예를 도시한 도면이다. 도 9의 경계 이미지(910)는 도 8의 흑백 이미지(820)에 팽창을 적용한 이미지와 침식을 적용한 이미지를 생성하고, 생성한 이미지들의 선들간의 차이를 통해 경계를 강화하여 생성된 이미지의 예를 나타내고 있다.

도 10은 본 발명의 일실시예에 있어서, 모르프 클로즈를 통해 공간이 메워지게 되는 개략적인 예를 도시한 도면이다. 앞서 설명한 바와 같이 모르프 클로즈는 경계에 팽창과 침식을 순차적으로 적용함으로써, 끊어진 점이 있는 선들을 보완하고, 기설정된 거리 이하의 선들간의 공간을 메워줄 수 있다. 예를 들어, 도 10에서는 서로 끊어져 있는 제1 선(1010)과 제2 선(1020), 일정한 거리를 두고 이격된 제3 선(1030)을 각각 도시하고 있다. 이러한 제1 선(1010), 제2 선(1020) 및 제3 선(1030)에 팽창이 적용되는 경우, 제1 선(1010), 제2 선(1020) 및 제3 선(1030) 각각이 두꺼워지면서 제4 선(1040)과 같이 하나의 굵은 선으로 연결될 수 있다. 다시 말해, 끊어진 점이 있는 선들이 연결되며 보완될 뿐만 아니라, 가까운 선들간의 공간이 메워질 수 있다. 이후 제4 선(1040)에 침식을 적용하는 경우에는 제4 선(1040)이 하나의 선으로 인식되기 때문에 제 5 선(1050)과 같이 경계가 강화될 수 있다.

도 11은 본 발명의 일실시예에 있어서, 모르프 클로즈가 적용된 이미지의 예를 도시한 도면이다. 도 11의 제1 이미지(1110)는 도 6의 경계 이미지(630)에 적응 임계값을 적용한 이미지의 예를 나타내고 있다. 또한, 도 11의 제2 이미지(1120)는 제1 이미지(1110)에 모르프 클로즈를 적용함에 따라 끊어진 점이 있는 선들이 보완되고, 선들 사이의 일부 공간들이 메워져서 경계가 강화된 예를 나타내고 있다.

도 12는 본 발명의 일실시예에 있어서, 모르프 클로즈의 적용 전 이미지와 모르프 클로즈의 적용 후 이미지를 비교하는 예를 도시한 도면이다. 도 12의 제1 이미지(1210)는 경계 이미지에 적응 임계값을 적용한 이미지의 예를 나타내고 있으며, 제2 이미지(1210)는 제1 이미지(1210)에 모르프 클로즈를 적용한 이미지의 예를 나타내고 있다. 도 3을 통해 설명한 바와 같이 전처리(330)는 씬 텍스트가 포함될 것으로 예상되는 적어도 하나의 후보 영역(340)을 추출하기 위한 과정으로, 모르프 클로즈를 통해 글자들간의 사이와 같이 사이가 먼 픽셀들이 하나의 그룹으로 잘 묶이게 되며, 이를 통해 씬 텍스트에 해당하는 영역을 쉽게 찾아낼 수 있게 된다.

이와 관련하여, 도 12의 제3 이미지(1230)는 제1 이미지(1210)를 이용하여 후보 영역을 추출한 예를 나타내고 있으며, 글자들 사이의 거리에 의해 서로 연관된 글자들이 여러 개로 후보 영역으로 분할된 예를 나타내고 있다. 반면, 도 12의 제4 이미지(1240)는 제2 이미지(1220)를 이용하여 후보 영역을 추출한 예를 나타내고 있으며, 서로 연관된 글자들이 하나의 덩어리로 잘 묶여서 하나의 후보 영역으로 추출됨을 나타내고 있다.

도 13은 본 발명의 일실시예에 있어서, 긴 선 제거의 적용 전후를 비교하는 예를 도시한 도면이다. 도 13은 입력 이미지(1310)에 도 4를 통해 설명한 색 잡영 제거(410) 과정, 모르프 그래디언트(420) 과정, 적응 임계값(430) 과정 및 모르프 클로즈(440) 과정을 적용한 제1 이미지(1320)와 긴 선 제거(450) 과정을 더 적용한 제2 이미지(1330)를 각각 나타내고 있다. 이때, 제2 이미지(1330)는 긴 선 제거(450) 과정에서 기설정된 길이 이상의 세로 선만을 제거한 예를 나타내고 있다. 또한, 도 13은 제1 이미지(1320)를 이용하여 윤곽(Contour)을 추출한 제3 이미지(1340)와 제2 이미지(1330)를 이용하여 윤곽을 추출한 제4 이미지(1350)를 각각 나타내고 있다. 제3 이미지(1340)는 긴 세로선에 의해 후보 영역을 나타내는 박스의 크기가 불필요하게 커진 모습을 나타내고 있다. 반면, 세로선을 제거한 경우에는 제4 이미지(1350)에서와 같이 씬 텍스트가 포함된 영역들이 후보 영역들로 적절히 선택되었음을 나타내고 있다.

세로선을 제거하는 코드나 윤곽을 추출하는 코드는 자바를 이용하여 구현할 수 있으며, 불필요한 선을 제거하는 것은 OpenCV의 메서드 'HoughLinesP()'를 이용하여 처리될 수 있다.

이처럼 모르프 클로즈(440) 과정과 긴 선 제거(450) 과정이 모두 적용된 이미지(일례로, 도 13의 제2 이미지(1330)는 씬 텍스트가 포함되었을 것으로 예측되는 후보 영역의 위치를 보다 정확하게 결정할 수 있게 한다. 다만, 모르프 클로즈(440) 과정과 긴 선 제거(450) 과정이 모두 적용된 이미지를 통해서는 CNN(310)이 후보 영역에 씬 텍스트가 포함되어 있는지 여부를 판단하기 어렵다. 따라서, CNN(310)의 입력으로 사용될 후보 영역은 모르프 클로즈(440) 과정과 긴 선 제거(450) 과정이 적용되기 이전의 이미지(색 잡영 제거(410) 과정, 모르프 그래디언트(420) 과정 및 적응 임계값(430) 과정이 적용된 이미지로서 일례로, 도 12의 제1 이미지(1210))에서 추출될 수 있다.

도 14는 본 발명의 일실시예에 있어서, 후보 영역을 추출하는 예를 도시한 도면이다. 도 14는 모르프 클로즈(440) 과정과 긴 선 제거(450) 과정이 모두 적용된 이미지(1410)에서 제1 점선박스(1411)와 같이 후보 영역의 위치를 결정하고, 적응 임계값(430) 과정까지 적용된 이미지(1420)에서 결정된 후보 영역의 위치에 대응하는 이미지를 추출하는 예를 나타내고 있다.

도 15는 본 발명의 일실시예에 있어서, 후보 영역을 추출하여 CNN의 입력으로 활용하는 예를 도시한 도면이다. 도 15의 제1 이미지(1510)는 도 4를 통해 설명한 색 잡영 제거(410) 과정, 모르프 그래디언트(420) 과정, 적응 임계값(430) 과정, 모르프 클로즈(440) 과정 및 긴 선 제거(450) 과정이 모두 수행된 이미지로서, 컴퓨터 장치(200)는 이러한 제1 이미지(1510)로부터 ROI 좌표를 추출할 수 있다. 또한, 도 15의 제2 이미지(1520)는 색 잡영 제거(410) 과정, 모르프 그래디언트(420) 과정 및 적응 임계값(430) 과정이 수행된 이미지로서, 컴퓨터 장치(200)는 앞서 추출된 ROI 좌표에 대응하는 후보 영역을 표시한 예를 나타내고 있다. 이때, 제2 이미지(1520)로부터 후보 영역들 각각을 추출한 이미지들(1530)이 CNN(310)의 입력으로 활용될 수 있다. CNN(310)은 입력된 이미지들(1530) 각각을 분석하여 추출된 후보 영역들 각각이 씬 텍스트를 포함하는지 여부를 결정할 수 있다.

한편, 후보 영역을 너무 작은 그룹들까지 찾게 되면, 너무 많은 후보 영역이 추출된다. 따라서 컴퓨터 장치(200)는 너비와 높이가 기설정된 값(일례로, 너비가 40 픽셀, 높이가 10 픽셀) 이상인 영역을 후보 영역으로 추출할 수 있다.

CNN(310)과 같은 인공지능이 판단해야 할 이미지는 앞서 설명한 바와 같이 입력되는 원본 이미지에서 자동으로 추출되는 후보 영역의 이미지들이다. 따라서, 인공지능이 학습하기 위해 사용하는 데이터 역시 텍스트(또는 텍스트로 분류되는 것)이 포함된 이미지와 텍스트가 아닌 것이 포함된 이미지를 포함할 수 있다. 텍스트가 아닌 것은 인공지능이 텍스트로 오해할 수 있는 사물이다. 예를 들어, 아파트 창문, 한옥의 창살 등이 글자와 비슷한 형상을 가지고 있기 때문에 텍스트로 오인될 수 있다.

사전 학습 모델(pre trained model)로 예측(prediction) 및 학습(training)을 하기 위해 윤곽 영역을 추출한 이미지는 RGB 색상의 이미지가 아니라 모르프 그래디언트가 적용된 경계 이미지를 사용할 수 있다. 학습 및 질의를 할 때는 텍스트의 윤곽선이 정확(정밀)해야 하기 때문에 테두리가 뭉그러지지 않게 적응 임계값과 모르프 클로즈는 적용되지 않는다.

도 16은 본 발명의 일실시예에 있어서, 학습 데이터의 예를 도시한 도면이다. 학습 데이터는 도 16에 도시된 바와 같이, 실제로 텍스트를 포함하고 있는 긍정 사례 데이터와 텍스트로 오인될 수 있는 부정 사례 데이터를 포함할 수 있다. 이러한 긍정 사례 데이터들은 원본 이미지에서 텍스트 영역을 자르고, 잘려진 텍스트 영역에 색 잡영 제거(410) 과정 및 모르프 그래디언트(420) 과정을 거쳐 구축될 수 있다. 또한, 이미지에 색 잡영 제거(410) 과정 및 모르프 그래디언트(420) 과정을 수행하는 경우, 특정 패턴이 마치 글자처럼 보이는 경우가 존재한다. 따라서, 컴퓨터 장치(200)는 인공지능을 준비 학습(warm-up training)시키는 과정에서 씬 텍스트로 잘못 인식된 부분 경계 이미지를 부정 사례 데이터로서 결정할 수 있다.

도 17은 본 발명의 일실시예에 있어서, 긍정 사례 데이터를 추출하는 예를 도시한 도면이다. 도 17은 텍스트가 포함된 이미지(1710)에서 텍스트 영역(1720)을 추출하고, 추출된 텍스트 영역의 이미지에 색 잡영 제거 및 모르프 그래디언트를 적용하여 긍정 사례 데이터(1730)를 추출한 예를 나타내고 있다. 예를 들어, 컴퓨터 장치(200)는 복수의 이미지들로부터 텍스트가 포함된 영역을 선택받기 위한 사용자 인터페이스를 제공할 수 있으며, 이러한 사용자 인터페이스를 통해 선택되는 영역을 추출하여 그레이 스케일 이미지를 생성할 수 있다. 또한, 컴퓨터 장치(200)는 생성된 그레이 스케일 이미지로부터 경계 이미지를 추출하여 긍정 사례 데이터를 생성할 수 있다.

도 18은 본 발명의 일실시예에 있어서, 부정 사례 데이터를 추출하는 예를 도시한 도면이다. 부정 사례 데이터는 인공지능이 텍스트로 오인한 후보 영역의 이미지들을 활용할 수 있다. 예를 들어, 적은 수(일례로, 10~50)의 준비 학습 데이터를 이용하여 CNN(310)을 학습시킨 후, 복수의 이미지들에 대해 CNN(310)이 텍스트로 오인한 후보 영역들을 부정 사례 데이터로서 추출하여 사용할 수 있다. 예를 들어, 컴퓨터 장치(200)는 도 18의 원본 이미지(1810)에 색 잡영 제거 및 모르프 그래디언트를 적용한 이미지(1820)를 생성한 후, 후보 영역(1830)을 추출하여 CNN(310)에 입력할 수 있다. 이때, CNN(310)이 후보 영역(1830)과 같이 텍스트를 포함하고 있지 않은 이미지를 텍스트를 포함하고 있는 것으로 오인하는 경우, 후보 영역(1830)이 부정 사례 데이터로서 추출될 수 있다.

학습 모델은 인셉션(Inception) 모델, VGG 모델 등과 같이 이미 알려진 다양한 학습 모델들 중 하나가 활용될 수 있으며, 'Inception-v3' 모델과 'TensorFlow' 모델을 조합하여 사용하였을 때, 씬 데이터 검출의 정확도는 96%를 보였다.

이상에서 설명한 실시예들에 따른 씬 데이터 검출 방법은 사물 인식(object detection), 글자 인식(OCR), 상황 설명(image captioning) 등과 같이 다양한 컴퓨터 시각화(computer vision) 분야에서 활용될 수 있다. 또한, 컨텐츠와 연관하여 업로드되는 다수의 이미지들의 노출 우선순위를 결정하기 위해 씬 데이터의 검출 여부가 활용될 수도 있다.

도 19는 본 발명의 일실시예에 있어서, 씬 텍스트 검출 방법의 예를 도시한 흐름도이다. 본 실시예에 따른 씬 텍스트 검출 방법은 앞서 설명한 컴퓨터 장치(200)에 의해 수행될 수 있다. 예를 들어, 컴퓨터 장치(200)의 프로세서(220)는 메모리(210)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(220)는 컴퓨터 장치(200)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(200)가 도 19의 방법이 포함하는 단계들(1910 내지 1970)을 수행하도록 컴퓨터 장치(200)를 제어할 수 있다.

단계(1910)에서 컴퓨터 장치(200)는 학습 이미지들로부터 씬 텍스트를 포함하는 긍정 사례 데이터를 생성할 수 있다. 이때, 학습 이미지들은 복수의 이미지들 각각을 그레이 스케일 이미지로 변환한 후, 변환된 그레이 스케일 이미지로부터 추출되는 경계 이미지들을 포함할 수 있다. 긍정 사례 데이터를 생성하는 보다 구체적인 예로, 컴퓨터 장치(200)는 복수의 이미지들로부터 텍스트가 포함된 영역을 선택받기 위한 사용자 인터페이스를 제공하고, 사용자 인터페이스를 통해 선택되는 영역을 추출하여 그레이 스케일 이미지를 생성한 후, 생성된 그레이 스케일 이미지로부터 경계 이미지를 추출할 수 있다.

단계(1920)에서 컴퓨터 장치(200)는 학습 이미지들로부터 씬 텍스트를 포함하지 않는 부정 사례 데이터를 생성할 수 있다. 이를 위해, 컴퓨터 장치(200)는 학습의 대상이 되는 CNN을 준비 학습(warm-up training)시키는 과정에서 씬 텍스트로 잘못 인식된 부분 경계 이미지를 부정 사례 데이터로서 결정할 수 있다. 여기서 CNN은 앞서 설명한 CNN(310)에 대응할 수 있다.

단계(1930)에서 컴퓨터 장치(200)는 긍정 사례 데이터 및 부정 사례 데이터를 포함하는 학습 데이터를 이용하여 CNN을 학습시킬 수 있다. CNN이 학습된 후에는 아래 단계들(1940 내지 1960)을 통해 이미지에 씬 텍스트가 포함되어 있는지 여부가 결정될 수 있다.

단계(1940)에서 컴퓨터 장치(200)는 이미지를 입력받을 수 있다. 입력되는 이미지는 해당 이미지에 씬 텍스트가 포함되어 있는가를 검출하기 위한 대상 이미지가 될 수 있다.

단계(1950)에서 컴퓨터 장치(200)는 입력된 이미지를 전처리하여 잡영을 제거할 수 있다. 단계(1950)은 도 4를 통해 설명한 색 잡영 제거(410) 과정, 모르프 그래디언트(420) 과정, 적응 임계값(430) 과정, 모르프 클로즈(440) 과정 및 긴 선 제거(450) 과정 중 적어도 하나를 포함할 수 있으며, 바람직하게는 색 잡영 제거(410) 과정, 모르프 그래디언트(420) 과정 및 모르프 클로즈(440) 과정을 포함할 수 있다. 이러한 단계(1950)에 대해서는 도 20을 통해 더욱 자세히 설명한다.

단계(1960)에서 컴퓨터 장치(200)는 잡영이 제거된 이미지에서 씬 텍스트의 검출을 위한 후보 영역을 추출할 수 있다. 이때, 컴퓨터 장치(200)는 공간이 메워진 경계 이미지에서 윤곽(contour)을 추출하여 입력된 이미지에서의 위치정보를 생성하고, 적응 임계값을 적용하여 제1 잡영이 제거된 경계 이미지에서 생성된 위치정보에 대응하는 부분을 후보 영역으로서 크롭(crop)할 수 있다.

단계(1970)에서 컴퓨터 장치(200)는 추출된 후보 영역을 CNN의 입력으로 이용하여 입력된 이미지에 대한 씬 텍스트 포함 여부를 결정할 수 있다. 단계들(1910 내지 1930)을 통해 학습된 CNN은 후보 영역이 씬 텍스트를 포함하는 영역인지 여부에 대한 정보를 제공할 수 있다.

또한, 컴퓨터 장치(200)는 특정 컨텐츠와 연관하여 업로드된 복수의 이미지들 각각에 대해 CNN을 이용하여 결정된 씬 텍스트의 포함 여부를 확인할 수 있으며, 복수의 이미지들 중 상기 씬 텍스트가 포함된 이미지의 노출 우선순위를 낮출 수 있다. 예를 들어, 부동산 매물과 관련하여 다수의 이미지들이 업로드된 경우, 컴퓨터 장치(200)는 씬 텍스트가 포함된 이미지를 광고 이미지로 결정하여 노출 우선순위를 낮춤으로써, 보다 양질의 이미지들이 우선적으로 노출되도록 할 수 있다.

도 20은 본 발명의 일실시예에 있어서, 전처리 방법의 예를 도시한 흐름도이다. 본 실시예에 따른 전처리 방법이 포함하는 단계들(2010 내지 2050)은 도 19를 통해 설명한 단계(1950)에 포함되어 컴퓨터 장치(200)에 의해 수행될 수 있다.

단계(2010)에서 컴퓨터 장치(200)는 입력된 이미지를 그레이 스케일 이미지로 변환할 수 있다. 이미 설명한 바와 같이, 입력된 이미지를 그레이 스케일 이미지로 변환하는 과정은 색 잡영을 제거하기 위한 과정일 수 있으며, 실시예에 따라 흑백의 이진화된 이미지를 생성할 수도 있다. 이 경우, 단계(2030)은 생략될 수도 있다.

단계(2020)에서 컴퓨터 장치(200)는 그레이 스케일 이미지에서 경계 이미지를 추출할 수 있다. 예를 들어, 컴퓨터 장치(200)는 그레이 스케일 이미지에서 사물의 경계에 팽창을 적용한 결과와 침식을 적용한 결과의 차이에 기반하여 경계가 강화된 이미지를 경계 이미지로서 추출할 수 있다.

단계(2030)에서 컴퓨터 장치(200)는 경계 이미지에 적응 임계값을 적용하여 제1 잡영을 제거할 수 있다. 여기서, 적응 임계값을 적용하는 것은 경계 이미지를 복수의 영역으로 분할하고, 분할된 영역마다 임계값을 결정 및 적용하여 임계값 미만의 값을 갖는 픽셀은 검정색으로, 임계값 이상의 값을 갖는 픽셀은 흰색으로 변환하여 잡영을 제거하는 과정일 수 있다.

단계(2040)에서 컴퓨터 장치(200)는 경계 이미지가 포함하는 경계에 팽창 및 침식을 순차적으로 적용하여 경계들 간의 거리가 기설정된 값 이하인 부분들 사이의 공간을 메울 수 있다. 경계들간의 공간의 메움으로써, 경계들이 강화될 수 있으며, 끊어진 선들을 보완할 수 있게 된다.

단계(2050)에서 컴퓨터 장치(200)는 공간이 메워진 경계 이미지에서 기설정된 길이 이상의 선을 제2 잡영으로서 제거할 수 있다. 실시예에 따라 기설정된 길이 이상의 선은 세로선으로 제한될 수도 있다. 도 13을 통해 설명한 바와 같이, 일정한 길이 이상의 선들은 텍스트를 위한 후보 영역의 추출에 악영향을 줄 수 있기 때문에 컴퓨터 장치(200)는 일정한 길이 이상의 선들을 제거함으로써 후보 영역이 불필요하게 커지는 것을 방지할 수 있다.

도 19 및 도 20에서 생략된 내용은 도 3 내지 도 18의 내용을 참조할 수 있다.

이처럼 본 발명의 실시예들에 따르면, 딥 러닝(deep learning)을 통해 이미지들을 분류함에 있어서, 텍스트 영역과 같은 ROI(Region Of Interest)의 후보 영역을 추출 및 판독할 수 있으며, 후보 영역을 딥 러닝을 위한 입력으로 이용하여 이미지의 씬 텍스트 포함 여부를 결정할 수 있다. 또한, 이미지들을 분류함에 있어서, 이미지의 씬 텍스트 포함 여부를 결정할 수 있게 됨에 따라, 특정 컨텐츠와 연관하여 업로드된 복수의 이미지들의 노출 우선순위를 결정함에 있어서, 이미지의 씬 텍스트 포함 여부를 활용할 수 있다. 예를 들어, 부동산 매물이나 호텔 등에 대한 정보를 제공함에 있어서, 업로드된 복수의 이미지들 중 광고를 포함하고 있는 이미지의 노출 우선순위를 낮출 수 있다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

이미지를 입력받는 단계;
상기 입력된 이미지를 전처리하여 잡영을 제거하는 단계;
상기 잡영이 제거된 이미지에서 씬 텍스트의 검출을 위한 후보 영역을 추출하는 단계; 및
상기 추출된 후보 영역을 CNN(Convolutional Neural Network)의 입력으로 이용하여 상기 입력된 이미지에 대한 씬 텍스트 포함 여부를 결정하는 단계
를 포함하고,
상기 입력된 이미지를 전처리하여 잡영을 제거하는 단계는,
상기 입력된 이미지를 그레이 스케일(gray scale) 이미지로 변환하는 단계;
상기 그레이 스케일 이미지에서 경계 이미지를 추출하는 단계; 및
상기 경계 이미지가 포함하는 경계에 팽창(dilation)을 적용한 후, 상기 팽창이 적용된 경계에 다시 침식(erosion)을 적용하여 경계들 간의 거리가 기설정된 값 이하인 부분들 사이의 공간을 메우는 단계
를 포함하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
상기 입력된 이미지를 전처리하여 잡영을 제거하는 단계는,
상기 그레이 스케일 이미지에서 추출된 경계 이미지에 적응 임계값(adaptive threshold)을 적용하여 제1 잡영을 제거하는 단계
를 더 포함하고,
상기 공간을 메우는 단계는,
상기 적응 임계값을 적용하여 제1 잡영이 제거된 경계 이미지에서 상기 공간을 메우는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
상기 후보 영역을 추출하는 단계는,
상기 공간이 메워진 경계 이미지에서 윤곽(contour)을 추출하여 상기 입력된 이미지에서의 위치정보를 생성하는 단계; 및
상기 그레이 스케일 이미지에서 추출된 경계 이미지에 적응 임계값을 적용하여 제1 잡영이 제거된 경계 이미지에서 상기 생성된 위치정보에 대응하는 부분을 상기 후보 영역으로서 크롭(crop)하는 단계
를 포함하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
상기 입력된 이미지를 전처리하여 잡영을 제거하는 단계는,
상기 공간이 메워진 경계 이미지에서 기설정된 길이 이상의 선을 제2 잡영으로서 제거하는 단계
를 더 포함하고,
상기 후보 영역을 추출하는 단계는,
상기 제2 잡영이 제거된 경계 이미지에서 후보 영역을 추출하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
상기 기설정된 길이 이상의 선을 제2 잡영으로서 제거하는 단계는,
상기 기설정된 길이 이상의 세로선을 상기 제2 잡영으로서 제거하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
상기 그레이 스케일 이미지에서 경계 이미지를 추출하는 단계는,
상기 그레이 스케일 이미지에서 사물의 경계에 팽창을 적용한 결과와 침식을 적용한 결과의 차이에 기반하여 경계가 강화된 이미지를 상기 경계 이미지로서 추출하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
학습 이미지들로부터 씬 텍스트를 포함하는 긍정 사례 데이터를 생성하는 단계;
상기 학습 이미지들로부터 씬 텍스트를 포함하지 않는 부정 사례 데이터를 생성하는 단계; 및
상기 긍정 사례 데이터 및 상기 부정 사례 데이터를 포함하는 학습 데이터를 이용하여 상기 CNN을 학습시키는 단계
를 더 포함하고,
상기 학습 이미지들은 복수의 이미지들 각각을 그레이 스케일 이미지로 변환한 후, 변환된 그레이 스케일 이미지로부터 추출되는 경계 이미지들을 포함하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제7항에 있어서,
상기 긍정 사례 데이터를 생성하는 단계는,
상기 복수의 이미지들로부터 텍스트가 포함된 영역을 선택받기 위한 사용자 인터페이스를 제공하는 단계;
상기 사용자 인터페이스를 통해 선택되는 영역을 추출하여 그레이 스케일 이미지를 생성하는 단계; 및
상기 생성된 그레이 스케일 이미지로부터 경계 이미지를 추출하는 단계
를 포함하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제7항에 있어서,
상기 부정 사례 데이터를 생성하는 단계는,
상기 CNN을 준비 학습(warm-up training)시키는 과정에서 씬 텍스트로 잘못 인식된 부분 경계 이미지를 상기 부정 사례 데이터로서 결정하는 것을 특징으로 하는 씬 텍스트 검출 방법.
제1항에 있어서,
특정 컨텐츠와 연관하여 업로드된 복수의 이미지들 각각에 대해 상기 CNN을 이용하여 결정된 씬 텍스트의 포함 여부를 확인하는 단계; 및
상기 복수의 이미지들 중 상기 씬 텍스트가 포함된 이미지의 노출 우선순위를 낮추는 단계
를 더 포함하는 것을 특징으로 하는 씬 텍스트 검출 방법.
컴퓨터와 결합하여 제1항 내지 제10항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
제1항 내지 제10항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체.
컴퓨터 장치에 있어서,
컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서에 의해,
이미지를 입력받고,
상기 입력된 이미지를 전처리하여 잡영을 제거하고,
상기 잡영이 제거된 이미지에서 씬 텍스트의 검출을 위한 후보 영역을 추출하고,
상기 추출된 후보 영역을 CNN(Convolutional Neural Network)의 입력으로 이용하여 상기 입력된 이미지에 대한 씬 텍스트 포함 여부를 결정하고,
상기 입력된 이미지를 전처리하여 잡영을 제거하기 위해, 상기 적어도 하나의 프로세서에 의해,
상기 입력된 이미지를 그레이 스케일(gray scale) 이미지로 변환하고,
상기 그레이 스케일 이미지에서 경계 이미지를 추출하고,
상기 경계 이미지가 포함하는 경계에 팽창(dilation)을 적용한 후, 상기 팽창이 적용된 경계에 다시 침식(erosion)을 적용하여 경계들 간의 거리가 기설정된 값 이하인 부분들 사이의 공간을 메우는 것 을 특징으로 하는 컴퓨터 장치.
제13항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 그레이 스케일 이미지에서 추출된 경계 이미지에 적응 임계값(adaptive threshold)을 적용하여 제1 잡영을 제거하고,
상기 적응 임계값을 적용하여 제1 잡영이 제거된 경계 이미지에서 상기 공간을 메우는 것
을 특징으로 하는 컴퓨터 장치.
제13항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 공간이 메워진 경계 이미지에서 윤곽(contour)을 추출하여 상기 입력된 이미지에서의 위치정보를 생성하고,
상기 그레이 스케일 이미지에서 추출된 경계 이미지에 적응 임계값을 적용하여 제1 잡영이 제거된 경계 이미지에서 상기 생성된 위치정보에 대응하는 부분을 상기 후보 영역으로서 크롭(crop)하는 것
을 특징으로 하는 컴퓨터 장치.
제13항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 공간이 메워진 경계 이미지에서 기설정된 길이 이상의 선을 제2 잡영으로서 제거하고,
상기 제2 잡영이 제거된 경계 이미지에서 후보 영역을 추출하는 것
을 특징으로 하는 컴퓨터 장치.
제13항에 있어서,
상기 적어도 하나의 프로세서에 의해,
상기 그레이 스케일 이미지에서 사물의 경계에 팽창을 적용한 결과와 침식을 적용한 결과의 차이에 기반하여 경계가 강화된 이미지를 상기 경계 이미지로서 추출하는 것
을 특징으로 하는 컴퓨터 장치.
제13항에 있어서,
상기 적어도 하나의 프로세서에 의해,
학습 이미지들로부터 씬 텍스트를 포함하는 긍정 사례 데이터를 생성하고,
상기 학습 이미지들로부터 씬 텍스트를 포함하지 않는 부정 사례 데이터를 생성하고,
상기 긍정 사례 데이터 및 상기 부정 사례 데이터를 포함하는 학습 데이터를 이용하여 상기 CNN을 학습시키고,
상기 학습 이미지들은 복수의 이미지들 각각을 그레이 스케일 이미지로 변환한 후, 변환된 그레이 스케일 이미지로부터 추출되는 경계 이미지들을 포함하는 것을 특징으로 하는 컴퓨터 장치.
제13항에 있어서,
상기 적어도 하나의 프로세서에 의해,
특정 컨텐츠와 연관하여 업로드된 복수의 이미지들 각각에 대해 상기 CNN을 이용하여 결정된 씬 텍스트의 포함 여부를 확인하고, 상기 복수의 이미지들 중 상기 씬 텍스트가 포함된 이미지의 노출 우선순위를 낮추는 것
을 특징으로 하는 컴퓨터 장치.