KR20230097518A

KR20230097518A - 전자 장치 및 그의 이미지를 추천하는 방법

Info

Publication number: KR20230097518A
Application number: KR1020210187083A
Authority: KR
Inventors: 박혜영; 허찬
Original assignee: 경북대학교 산학협력단
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-07-03

Abstract

본 발명은 전자 장치 및 그의 이미지를 추천하는 방법에 관한 것이다. 상기 방법은 복수의 단어를 포함하는 질의를 입력받는 단계; 상기 질의로부터 제1 특징을 추출하는 단계; 상기 질의와 관련된 다수의 후보 이미지를 검색하여 획득하는 단계; 상기 다수의 후보 이미지 각각에 기반하여 제2 특징을 추출하는 단계; 상기 다수의 후보 이미지 각각으로부터 제3 특징을 추출하는 단계; 상기 제2 특징 및 상기 3 특징을 결합하여 각 후보 이미지에 대한 결합 특징을 생성하는 단계; 상기 결합 특징과 상기 제1 특징을 비교하는 단계; 및 상기 비교 결과에 기초하여, 상기 다수의 후보 이미지들 중 상기 질의와 가장 유사한 이미지를 추천 이미지로 결정하여 출력하는 단계를 포함할 수 있다.

Description

전자 장치 및 그의 이미지를 추천하는 방법{ELECTRONIC DEVICE AND METHOD FOR RECOMMANDING IMAGE THEREOF}

본 발명은 전자 장치 및 그의 이미지를 추천하는 방법에 관한 것이다.

인터넷의 발전과 함께, 다양한 웹 서비스가 제공되고 있다. 예를들어, 사용자에 의해 입력된 키워드(또는 문장)에 대응하는 이미지를 검색하여 제공하는 이미지 검색 서비스(또는 이미지 추천 서비스)가 제공되고 있다.

키워드 기반으로 이미지를 검색하는 경우 매우 많은 이미지가 검색될 수 있다. 이로 인하여, 사용자는 자신의 의도에 적합한 이미지를 획득하는데 불편함이 있을 수 있다. 예를 들어, 사용자는 검색된 다수의 이미지들로부터 자신의 의도에 적합한 이미지를 선택하기 위해 많은 시간을 소모해야 할 수 있다.

상기 불편함을 해소하기 위하여, 우선 순위(예: 클릭 수, 사용자의 선호도)를 기반으로 이미지를 제공하는 방안이 고안되었다. 하지만, 상기 방안 역시 사용자의 의도를 완전히 반영하지는 못한다는 문제점을 가진다. 다시 말해, 검색 서비스를 제공하는 시스템(서버)에 충분한 정보가 존재하지 않는 이미지에 대한 검색이 요청되는 경우 사용자의 의도에 적합한 이미지를 제공하지 못할 수 있다. 즉, 현재의 이미지 검색 또는 추천 서비스는 사용자의 의도에 적합한 이미지를 효과적으로 제공하지 못할 수 있다는 문제점을 가진다.

본 발명은, 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 사용자에 의해 입력된 질의에 적합한 이미지를 추천할 수 있는 전자 장치 및 그의 이미지를 추천하는 방법을 제공할 수 있다.

또한, 본 발명은 (이미지를 표현하는 적어도 하나의 설명문을 생성하는)이미지-캡션(image-caption) 기술을 이용하여 이미지 추천에 대한 성능을 향상시킬 수 있는 전자 장치 및 그의 이미지를 추천하는 방법을 제공할 수 있다.

상술한 목적을 달성하기 위한, 본 발명의 일 실시 예에 따른 전자 장치의 이미지를 추천하는 방법은 복수의 단어를 포함하는 질의를 입력받는 단계; 상기 질의로부터 제1 특징을 추출하는 단계; 상기 질의와 관련된 다수의 후보 이미지를 검색하여 획득하는 단계; 상기 다수의 후보 이미지 각각에 기반하여 제2 특징을 추출하는 단계; 상기 다수의 후보 이미지 각각으로부터 제3 특징을 추출하는 단계; 상기 제2 특징 및 상기 3 특징을 결합하여 각 후보 이미지에 대한 결합 특징을 생성하는 단계; 상기 결합 특징과 상기 제1 특징을 비교하는 단계; 및 상기 비교 결과에 기초하여, 상기 다수의 후보 이미지들 중 상기 질의와 가장 유사한 이미지를 추천 이미지로 결정하여 출력하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 전자 장치는 복수의 단어를 포함하는 질의를 입력받는 입력 모듈; 상기 질의로부터 제1 특징을 추출하고, 상기 질의와 관련된 다수의 후보 이미지를 검색하여 획득하고, 상기 다수의 후보 이미지 각각에 기반하여 제2 특징을 추출하고, 상기 다수의 후보 이미지 각각으로부터 제3 특징을 추출하고, 상기 제2 특징 및 상기 3 특징을 결합하여 각 후보 이미지에 대한 결합 특징을 생성하고, 상기 결합 특징과 상기 제1 특징을 비교하며, 상기 비교 결과에 기초하여, 상기 다수의 후보 이미지들 중 상기 질의와 가장 유사한 이미지를 추천 이미지로 결정하는 프로세서; 및 상기 추천 이미지를 표시하는 디스플레이를 포함할 수 있다.

본 발명은 이미지(예: 검색 엔진에 의해 검색된 후보 이미지)에 대한 결합 특징(예: 이미지로부터 생성된 설명문(caption)의 텍스트 특징 및 이미지 특징을 결합하여 생성)에 기초하여 추천 이미지를 결정함에 따라, 사용자의 질의(예: 의도)에 적합한 추천 이미지를 보다 정확하게 제공할 수 있다. 즉, 본 발명은 추천 이미지 제공에 대한 성능 향상 및 사용자의 만족도를 향상시킬 수 있다.

또한, 본 발명은 이미지로부터 텍스트 정보를 생성할 수 있어, 추천 이미지를 결정하기 위해 요구되는 부가 정보를 별도로 입력할 필요가 없어, 사용자의 편의성을 향상시키며, 이미지 추천에 대한 성능을 향상시킬 수 있다.

도 1은 본 발명의 일 실시 예에 따른 전자 장치의 이미지를 추천하는 방법을 도시한 흐름도이다.
도 2a는 본 발명의 일 실시 예에 따른 전자 장치의 이미지를 추천하는 절차를 설명하는 도면이다.
도 2b는 본 발명의 일 실시 예에 따른 결합 특징을 생성하는 절차를 상세히 도시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 질의에 따른 추천 이미지 제공하는 일 예를 도시한 예시도이다.
도 4는 본 발명의 일 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 5는 도 4의 이미지 추천 모듈의 구성을 도시하는 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 이하에서 동일한 참조 부호는 동일 구성 요소를 지칭한다.

비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "이루어지다(made of)"는 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 구성에 대하여 상세히 설명한다.

도 1은 본 발명의 일 실시 예에 따른 전자 장치의 이미지를 추천하는 방법을 도시한 흐름도이고, 도 2a는 본 발명의 일 실시 예에 따른 전자 장치의 이미지를 추천하는 절차를 설명하는 도면이고, 도 2b는 본 발명의 일 실시 예에 따른 결합 특징을 생성하는 절차를 상세히 도시한 도면이며, 도 3은 본 발명의 일 실시 예에 따른 질의에 따른 추천 이미지 제공하는 일 예를 도시한 예시도이다.

도 1 내지 도 3을 참고하면, 본 발명의 일 실시 예에 따른 전자 장치의 이미지를 추천하는 방법은 질의(query)가 입력되는 단계(S110)를 포함할 수 있다. 상기 질의는 이미지 검색을 위한 적어도 하나의 단어가 나열된 형태 또는 다수의 단어를 포함하는 문장일 수 있다. 상기 질의는 웹 페이지의 검색 필드 또는 전자 장치의 검색 메뉴 상에서 입력될 수 있다. 예를 들어, 전자 장치의 사용자는, 도 3에 도시된 바와 같이, "zebra on the grass"와 같은 질의(31)를 입력할 수 있다.

일 실시 예에 따르면, 상기 방법은 질의로부터 제1 특징을 추출하는 단계(S120)를 포함할 수 있다. 상기 제1 특징은 상기 질의로부터 추출되는 텍스트 특징일 수 있다. 예를 들어, S120 단계는, 도 2에 도시된 바와 같이, 질의로부터 텍스트 특징을 추출(S121)하고, 추출된 텍스트 특징을 지정된 벡터 공간(이하, 임베딩 공간(embedding space)에 임베딩(S122)할 수 있다. 즉, 상기 제1 특징은, 도 3에 도시된 바와 같이, 임베딩 공간 상에 제1 특징 벡터(feature vector)(301)로 임베딩될 수 있다.

일 실시 예에 따르면, 상기 방법은 검색 엔진(검색 모듈)을 이용하여, 질의와 관련된 다수의 후보 이미지를 획득하는 단계(S130)를 포함할 수 있다. 예를 들어, 상기 S130 단계는, 도 2a에 도시된 바와 같이, 질의에 포함된 단어(키워드)를 기반으로 다수의 후보 이미지들(201)을 검색하여 획득할 수 있다. 다수의 후보 이미지들(201)은 외부 서버 또는 전자 장치에 저장된 이미지일 수 있다. 여기서, 상기 검색 엔진을 이용한 이미지 검색은 일반적인 기술인 바, 상세한 설명을 생략하기로 한다.

일 실시 예에 따르면, 상기 방법은 각 후보 이미지에 기반하여 제2 특징을 추출하는 단계(S140)를 포함할 수 있다. 상기 제2 특징은 각 후보 이미지를 표현하는 설명문으로부터 추출되는 텍스트 특징일 수 있다. 상세하게는, 상기 S140 단계는, 도 2b에 도시된 바와 같이, 이미지-캡션 모듈(미도시)을 이용하여 각 후보 이미지들(201) 각각을 표현하는 적어도 하나의 설명문을 생성(S141)하고, 제1 인공지능 모델(미도시)을 이용하여 상기 생성된 설명문으로부터 텍스트 특징을 추출(S142)하고, 임베딩 공간 상에 임베딩(S143)할 수 있다. 예를 들어, S140 단계는, 도 3에 도시된 바와 같이, 제1 후보 이미지(201-1)로부터 "There is a zebra on a green grass"와 같은 설명문(21)을 생성하고, 설명문(21)으로부터 텍스트 특징(제2 특징)을 추출하고, 임베딩 공간 상에 제2 특징 벡터(302)로 임베딩할 수 있다. 한편, 도 3 도시하지는 않았지만, S140 단계는 제2 후보 이미지(201-2) 및 제3 후보 이미지(201-3)에 대한 설명문을 생성하고, 설명문의 텍스트 특징을 임베딩 공간에 임베딩할 수 있다. 또한, 도 3에서는 하나의 설명문(21)이 생성되는 것으로 도시하였지만, 본 발명은 다수의 설명문을 생성할 수도 있다.

한편, 상기 도 2b에서는 제1 인공지능 모델이 LSTM(long short-term memory)인 것으로 도시하였지만, 제1 인공지능 모델은, 이에 한정되지 않고, 텍스트 특징 추출 분야에서 알려진 다양한 인공지능 모델이 될 수 있다.

일 실시 예에 따르면, 상기 방법은 각 후보 이미지로부터 제3 특징을 추출하는 단계(S150)를 포함할 수 있다. 상기 제3 특징은 각 후보 이미지를 이미지 분석하여 추출되는 이미지 특징일 수 있다. 상기 이미지 분석은 이미지 인식(또는 비전 인식) 기술 및/또는 인공지능(예: CNN 기반의 인공지능) 기술을 포함할 수 있다. 상세하게는, S150 단계는, 도 2b에 도시된 바와 같이, 제2 인공지능 모델(미도시)을 이용하여 후보 이미지들(201) 각각으로부터 제3 특징(이미지 특징)을 추출(S151)하고, 임베딩 공간 상에 임베딩(S152)할 수 있다. 예를 들어, 상기 제3 특징은, 도 3에 도시된 바와 같이, 임베딩 공간 상에 제3 특징 벡터(303)로 임베딩될 수 있다.

한편, 상기 도 2b에서는 제2 인공지능 모델이 CNN(convolution neural-network)인 것으로 도시하였지만, 제2 인공지능 모델은, 이에 한정되지 않고, 이미지 인식을 위한 알려진 다양한 인공지능 모델이 될 수 있다.

일 실시 예에 따르면, 상기 방법은 제2 특징 및 제3 특징을 결합하여 결합 특징을 생성하는 단계(S160)를 포함할 수 있다. 상세하게는, S160 단계는 제2 특징인 임베딩 공간(300) 상의 텍스트 특징 벡터(210)와 제3 특징인 이미지 특징 벡터(220)를 결합하여 결합 특징 벡터(230)를 생성할 수 있다. 예를 들어, 상기 S160 단계는, 도 3에 도시된 바와 같이, 제1 후보 이미지(201-1)의 제2 특징 벡터(302) 및 제3 특징 벡터(303)를 결합하여 제4 특징 벡터(304)를 생성할 수 있다. 또한, 상기 S160 단계는, 유사한 방식으로, 제2 후보 이미지(201-2) 및 제3 후보 이미지(201-3)에대한 결합 특징 벡터들(305, 306)을 생성할 수 있다.

어떤 실시 예에 따르면, 상기 텍스트 특징 벡터(210) 및 이미지 특징 벡터(220)는 지정된 비율로 결합될 수 있다. 상기 비율은 텍스트 특징 벡터(210)보다 이미지 특징 벡터(220)가 더 많이 반영되도록 결정될 수 있다. 예를 들어, 텍스트 특징 벡터(210) 및 이미지 특징 벡터(220)는 3 : 7의 비율로 결합될 수 있다. 상기 비율(3 : 7)은 일 예일 분, 본 발명을 한정하지 않으며, 변경(또는 업데이트)될 수 있다.

일 실시 예에 따르면, 상기 방법은 결합 특징과 제1 특징을 비교하는 단계(S170)를 포함할 수 있다. 예를 들어, S170 단계는, 도 2a에 도시된 바와 같이, 결합 특징과 제1 특징의 유사도를 비교할 수 있다. 상세하게는, 상기 S170 단계는, 도 2b에 도시된 바와 같이, 질의와 관련된 특징 벡터(240)와 다수의 후보 이미지와 관련된 결합 특징 벡터들(230) 사이의 거리를 각각 계산(S171)하고, 각 계산된 거리에 기초하여 유사도를 비교할 수 있다. 예를 들어, 상기 S170 단계는, 도 3에 도시된 바와 같이, 제1 특징 벡터(301)와 결합 특징들(304, 305, 306) 사이의 거리를 각각 계산하고, 계산된 거리들을 비교할 수 있다.

일 실시 예에 따르면, 상기 방법은 비교 결과에 기초하여, 추전 이미지를 결정하여 출력하는 단게(S180)를 포함할 수 있다. 상세하게는, 상기 S180 단계는 가장 작은 거리를 가지는 후보 이미지를 추천 이미지로 결정하여 출력할 수 있다. 예를 들어, 상기 S180 단계는, 도 3에 도시된 바와 같이, 제1 내지 제3 후보 이미지들(201-1, 201-2, 201-3) 중 제1 특징 벡터(301)와 가장 가까운 제1 후보 이미지(201-1)를 추천 이미지로 결정하고, 제1 후보 이미지(201-1)를 추천 이미지로 디스플레이(미도시) 상에 출력할 수 있다.

한편, 도 3에서는 하나의 추천 이미지를 제공하는 것으로 도시하였만, 본 발명은 지정된 수(예: 4개)의 후보 이미지를 추천 이미지로 제공하거나, 후보 이미지들을 거리 순으로 정렬하여 출력할 수도 있다.

도 4는 본 발명의 일 실시 예에 따른 전자 장치의 구성을 도시한 블록도이고, 도 5는 도 4의 이미지 추천 모듈의 구성을 도시하는 블록도이다.

도 4 및 도 5를 참조하면, 본 발명의 일 실시 예에 따른 전자 장치(400)는 메모리(410), 디스플레이(420), 프로세서(430), 및 입력 모듈(440)을 포함할 수 있다.

입력 모듈(440)은 물리적인 버튼, 광학식 키, 키패드, 마우스, 또는 터치 패드 등을 포함할 수 있다. 입력 모듈(440)이 터치 패널로 형성되는 경우 입력 모듈(440)은 디스플레이(420)와 일체형으로 형성될 수 있다. 본 발명의 일 실시 예에 따른 입력 모듈(440)은 이미지 검색을 위한 질의(적어도 하나의 단어를 포함)를 입력받을 수 있다.

메모리(410)는 프로세서(430)와 전기적으로 연결될 수 있고, 전자 장치(400)를 동작시키기 위한 다양한 프로그램들, 및 프로세서(430)를 동작시키기 위한 다양한 명령 및/또는 인스트럭션들을 저장할 수 있다. 메모리(410)는 내장 메모리 또는 외장 메모리 중 적어도 어느 하나를 포함할 수 있다. 내장 메모리는 휘발성 메모리(예: DRAM, SRAM, 또는 SDRAM 등), 비휘발성 메모리(예: OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, 플래시 메모리, 하드 드라이브, 또는 솔리드 스테이트 드라이브 (SSD) 중 적어도 하나를 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치(400)와 연결될 수 있는 SD(secure digital), Micro-SD, Mini-SD, 또는 USB(universal serial bus) 메모리 등을 포함할 수 있다.

메모리(410)는 이미지 추천 모듈(40)을 포함할 수 있다. 이미지 추천 모듈(40)은, 도 5에 도시된 바와 같이, 검색 모듈(41), 이미지-캡션 모듈(42), 텍스트 특징 추출 모듈(43), 이미지 특징 추출 모듈(44), 결합 특징 생성 모듈(45), 및 결정 모듈(46)을 포함할 수 있다.

검색 모듈(41)은 질의와 관련된 다수의 후보 이미지를 검색할 수 있다. 이미지-캡션 모듈(42)은 각 후보 이미지를 표현하는 설명문(caption)을 생성할 수 있다. 텍스트 특징 추출 모듈(43)은 상기 질의로부터 제1 특징을 추출하고, 상기 설명문으로부터 적어도 하나의 제2 특징을 추출할 수 있다. 상기 제1 특징 및 상기 제2 특징은 텍스트 특징일 수 있다. 텍스트 특징 추출 모듈(43)은 제1 인공 지능 모델(예: LSTM) 기반의 모듈일 수 있다.

이미지 특징 추출 모듈(44)은 각 후보 이미지로부터 제3 특징을 추출할 수 있다. 상기 제3 특징은 이미지 특징일 수 있다. 상기 이미지 특징 추출 모듈(44)은 제2 인공 지능 모델(예: CNN) 기반의 모듈일 수 있다. 결합 특징 생성 모듈(45)은 제2 특징 및 제3 특징을 결합하여 결합 특징을 생성할 수 있다. 이때, 결합 특징 생성 모듈(45)은 제2 특징 및 제3 특징을 지정된 비율(예: 3: 7)로 결합할 수 있다. 결정 모듈(46)은 결합 특징과 제1 특징을 비교하여 상기 추천 이미지를 결정할 수 있다. 예를 들어, 결정 모듈(46)은 질의와 관련된 제1 특징과 각 후보 이미지의 결합 특징 간에 거리(임베딩 공간 상에서의 거리)를 계산하고, 상기 계산된 거리가 가장 가까운 후보 이미지를 상기 추천 이미지로 결정할 수 있다.

디스플레이(420)는 입력 기능 및/또는 출력 기능을 제공할 수 있다. 예를 들어, 디스플레이(420)는 터치 패널 및/또는 표시 패널을 포함할 수 있다. 디스플레이(420)는 질의에 가장 적합하다고 판단된 추천 이미지를 표시할 수 있다. 또는, 디스플레이(420)는 후보 이미지를 함께 표시할 수도 있다.

프로세서(430)는 메모리(410)로부터 명령(command) 또는 인스트럭션들(instructions)을 수신하고, 수신된 명령 또는 인스트럭션들에 따라 각 구성 요소들을 제어하여, 다양한 기능들을 수행할 수 있다. 프로세서(430)는 중앙 처리 장치(central processing unit: CPU), 마이크로 컨트롤 유닛(micro control unit: MCU), 마이크로 프로세서 유닛(micro processor unit: MPU) 등으로 형성될 수 있다. 본 발명의 일 실시 예에 따른 프로세서(430)는, 이미지 추천 모듈(40)을 통해, 도 1 내지 도 3을 참조하여 설명한 이미지 추천 절차를 제어할 수 있다.

이상에서 상술한 본 발명은 후보 이미지들로부터 이미지 특징만을 추출하여 이용하는 것이 아니라, 이미지-캡션 기술을 이용하여 후보 이미지를 설명하는 설명문을 생성하고, 설명문으로부터 텍스트 특징을 추출하여, 이미지 특징 및 텍스트 특징을 함께 이용함에 따라, 사용자의 질의에 보다 적합한 추전 이미지를 제공할 수 있다.

한편, 이상에서는, 이미지-캡션 기술을 이용하여 이미지를 추천하는 방법에 대하여 설명하였다. 하지만, 상기 이미지-캡션 기술은 이미지 분류에도 적용될 수 있다. 예를 들어, 이미지 분류(제로-샷(zero-shot) 분류) 시 분류하고자 하는 이미지의 이미지 특징 및 이미지-캡션 기술을 이용하여 분류하고자 하는 이미지로부터 생성된 설명문의 텍스트 특징을 결합하여 이미지 분류의 정확도를 향상시킬 수 있다.

또한, 상기 이미지-캡션 기술을 이용하여, 이미지 분류 모델의 학습 데이터를 증대(agumentation)할 수 있다. 예를 들어, 이미지 분류 모델의 학습(training) 시 학습 이미지에 라벨링된 정보가 없거나 부족한 경우 이미지-캡션 기술을 이용하여 학습 이미지에 대한 정보를 생성하여 학습 데이터를 증대하고, 증대된 학습 데이터를 이용하여 학습을 수행함에 따라 이미지 분류 모델의 성능을 향상시킬 수 있다.

이상과 같이 본 발명의 도시된 실시 예를 참고하여 설명하고 있으나, 이는 예시적인 것들에 불과하며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 본 발명의 요지 및 범위에 벗어나지 않으면서도 다양한 변형, 변경 및 균등한 다양한 타 실시 예들이 가능하다는 것을 명백하게 알 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적인 사상에 의해 정해져야 할 것이다.

400: 전자 장치
410: 메모리 420: 디스플레이
430: 프로세서 440: 입력 모듈
40: 이미지 추천 모듈

Claims

전자 장치의 이미지를 추천하는 방법에 있어서,
복수의 단어를 포함하는 질의를 입력받는 단계;
상기 질의로부터 제1 특징을 추출하는 단계;
상기 질의와 관련된 다수의 후보 이미지를 검색하여 획득하는 단계;
상기 다수의 후보 이미지 각각에 기반하여 제2 특징을 추출하는 단계;
상기 다수의 후보 이미지 각각으로부터 제3 특징을 추출하는 단계;
상기 제2 특징 및 상기 3 특징을 결합하여 각 후보 이미지에 대한 결합 특징을 생성하는 단계;
상기 결합 특징과 상기 제1 특징을 비교하는 단계; 및
상기 비교 결과에 기초하여, 상기 다수의 후보 이미지들 중 상기 질의와 가장 유사한 이미지를 추천 이미지로 결정하여 출력하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,
상기 제2 특징을 추출하는 단계는
상기 이미지-캡션 모듈을 이용하여, 각 후보 이미지를 표현하는 설명문을 생성하는 단계; 및
제1 인공 지능 모델을 이용하여, 상기 생성된 설명문 각각으로부터 텍스트 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,
상기 제3 특징을 추출하는 단계는
제2 인공 지능 모델을 이용하여, 각 후보 이미지를 분석하여 이미지 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,
상기 결합하는 단계는
상기 제2 특징보다 상기 제3 특징의 비율을 더 크게 반영하여 상기 제2 특징 및 상기 제3 특징을 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,
상기 비교하는 단계는
상기 제1 특징과 각 후보 이미지의 결합 특징에 대한 임베딩 공간 상에서의 거리를 계산하는 단계를 포함하고,
상기 추천하는 단계는
상기 계산된 거리가 가장 가까운 후보 이미지를 상기 추천 이미지로 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
전자 장치에 있어서,
복수의 단어를 포함하는 질의를 입력받는 입력 모듈;
상기 질의로부터 제1 특징을 추출하고, 상기 질의와 관련된 다수의 후보 이미지를 검색하여 획득하고, 상기 다수의 후보 이미지 각각에 기반하여 제2 특징을 추출하고, 상기 다수의 후보 이미지 각각으로부터 제3 특징을 추출하고, 상기 제2 특징 및 상기 3 특징을 결합하여 각 후보 이미지에 대한 결합 특징을 생성하고, 상기 결합 특징과 상기 제1 특징을 비교하며, 상기 비교 결과에 기초하여, 상기 다수의 후보 이미지들 중 상기 질의와 가장 유사한 이미지를 추천 이미지로 결정하는 프로세서; 및
상기 추천 이미지를 표시하는 디스플레이를 포함하는 것을 특징으로 하는 전자 장치.
제 6 항에 있어서,
상기 메모리는
상기 질의와 관련된 다수의 후보 이미지를 검색하는 검색 모듈;
각 후보 이미지를 표현하는 설명문을 생성하는 상기 이미지-캡션 모듈;
상기 질의로부터 상기 제1 특징을 추출하고, 상기 설명문으로부터 상기 제2 특징을 추출하는 제1 인공 지능 모델 기반의 텍스트 특징 추출 모듈;
상기 각 후보 이미지로부터 상기 제3 특징을 추출하는 제2 인공 지능 모델 기반의 이미지 특징 추출 모듈;
상기 제2 특징 및 상기 제3 특징을 임베딩 공간 상의 특징 벡터로 결합하는 결합 특징 생성 모듈; 및
상기 결합 특징과 상기 제1 특징을 비교하여 상기 추천 이미지를 결정하는 결정 모듈을 포함하는 것을 특징으로 하는 전자 장치.
제 7 항에 있어서,
상기 결정 모듈은
상기 제1 특징과 각 후보 이미지의 결합 특징에 대한 임베딩 공간 상에서의 거리를 계산하고, 상기 계산된 거리가 가장 가까운 후보 이미지를 상기 추천 이미지로 결정하는 것을 특징으로 하는 전자 장치.
제 7 항에 있어서,
상기 결합 특징 생성 모듈은
상기 제2 특징보다 상기 제3 특징의 비율을 더 크게 반영하여 상기 제2 특징 및 상기 제3 특징을 결합하는 것을 특징으로 하는 전자 장치.