KR20140093957A

KR20140093957A - 상호작용 멀티-모달 이미지 검색 기법

Info

Publication number: KR20140093957A
Application number: KR1020147013784A
Authority: KR
Inventors: 타오 메이; 시펭 리; 징동 왕; 양 왕
Original assignee: 마이크로소프트 코포레이션
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2014-07-29
Also published as: US20140250120A1; CN103946838B; EP2783305A4; JP6278893B2; JP2014534540A; EP2783305A1; CN103946838A; WO2013075316A1; US9411830B2

Abstract

모바일 디바이스 상의 시각적 검색 기능은 모바일 디바이스 상의 멀티-모달 및 멀티-터치 입력을 이용한다. 이 기능은 구두의 검색 질의로부터 어휘 엔티티를 추출하여 이러한 어휘 엔티티를 이미지 태그에 매칭함으로써, 각 엔티티에 대한 후보 이미지를 제공한다. 후보 이미지들 중 선택된 하나의 이미지는 질의 캔버스 상의 합성 시각적 질의 이미지를 구성하도록 사용된다. 현존하는 이미지일 필요가 없는 합성 시각적 질의 이미지 내에서의 선택된 후보 이미지의 상대적인 크기 및 위치는, 컨텍스트-인식 시각적 검색을 위해 제출된 합성 시각적 질의 이미지의 컨텍스트 정의에 기여한다.

Description

상호작용 멀티-모달 이미지 검색 기법{INTERACTIVE MULTI-MODAL IMAGE SEARCH}

[저작권 공고 및 승인]

본 특허 문서의 내용 중 일부는 저작권의 보호를 받는 소재를 포함할 수 있다. 저작권 소유자는 특허상표청의 특허 파일 또는 기록에서 드러나는 본 특허 문서 또는 특허 명세서를 누구라도 복사하는 것에 대해서는 이의를 가지지 않으나, 그외의 모든 저작권을 소유한다. 다음 공고, 즉 Copyright

2011, Microsoft Corp.는 본 문서에 적용될 것이다.

인터넷 및 월드와이드웹에 액세스할 수 있는 모바일 디바이스가 점차 일반화되고 있으며, 계속 활동하는 동안 증가하는 데이터량에 대한 액세스를 사용자에 제공하는 개인 인터넷 서핑 컨시어지로서의 역할을 한다.

모바일 디바이스에 대한 일부 검색 애플리케이션은, 모바일 디바이스에 내장된 카메라로 촬영된 사진을 시각적 질의(visual query)로서 지원하는데, 이는 캡처-투-서치(capture-to-search)로 불린다. 캡처-투-서치에서, 전형적으로 사진이 먼저 찍히고, 그 다음 스냅샷이 다양한 버티컬 도메인에서의 매치를 검색하기 위한 질의로서 제출된다. 현존하는 검색 엔진은 긴 문장의 의미에 대한 기계 학습에서의 갭(gap)으로 인해 긴 질의를 잘 처리할 수 있는 제한된 능력을 갖는다. 예를 들어, "흰말 앞에 여러개의 초록색 나무가 있는 이미지를 찾아라"와 같은 텍스트 질의는 어떠한 관련된 검색 결과도 내어놓지 않을 수 있다.

데스크톱을 위한 일부 검색 엔진은 검색을 위해 사용자 제출된 스케치를 이용하거나, 검색 의도의 지시로서 예를 들어 "유사한 이미지", 색상, 스타일, 또는 얼굴과 같은 다양한 필터를 사용하거나, 또는 전술된 캡처-투-서치 모드와 유사하게 검색을 위한 질의로서 현존하는 이미지의 업로드를 지원한다. 하나의 검색 프로그램은 사용자로 하여금 질의 이미지 상의 소정의 영역을 중요 검색 구성요소로서 강조할 수 있게 하는 반면, 다른 검색 프로그램은 상단의 텍스트-기반 검색 결과를 필터링하도록 태그들의 그룹의 위치 및 크기를 이용하며, 또 다른 검색 프로그램은 합성 캔버스(composite canvas) 상의 복수의 색상 힌트의 선택을 시각적 질의로서 사용한다. 그러나, 데스크톱에 대한 사용자 상호작용은 모바일 디바이스에서와는 상이하다.

모바일 디바이스는 현재 일부 유형의 검색, 특히 현재 검색 대상의 사진을 캡처하지 않고 이미지 또는 비디오 검색을 수행하는 플랫폼을 제공하지 않는다. 또한, 텍스트 입력 또는 음성 입력은 시각적 검색에 잘 맞지 않는다. 예를 들어, 전화기 상에서 타이핑하는 것은 종종 지루하며, 구두 질의(spoken query)는 시각적 의도를 표현하기에 부적합하다. 더욱이, 시각적 검색 프로세스에서의 사용자 의도를 알아내는 것은 다소 복잡하고 텍스트(또는 텍스트로 옮겨진 음성)의 조각으로 잘 표현되지 않을 수 있다.

본 명세서는 모바일 디바이스 상의 터치 입력을 포함하는 멀티-모달(multi-modal) 입력을 이용하는 모바일 디바이스 상의 시각적 검색을 위한 기능을 개시한다. 구두의(spoken) 검색 질의를 포함하는 검색 질의로부터 어휘 엔티티(lexical entity)를 추출하고 이러한 어휘 엔티티를 이미지 태그에 매칭함으로써, 이 기능은 각 엔티티에 대한 후보 이미지를 제공한다. 이 기능은 특정한 후보 이미지의 선택을 제공한다. 이 기능은 선택된 후보 이미지와 그의 크기 및 위치를 이용하여 질의 캔버스 상에 합성 시각적 질의(composite visual query)를 구성한다. 합성 시각적 질의는 현존하는 이미지일 필요가 없다.

본 요약부는 아래의 상세한 설명에서 추가로 기술되는 개념들의 선택을 단순화된 형태로 소개하도록 제공되었다. 본 요약부는 청구된 청구범위의 기본 특성 또는 중요 특성을 식별하기 위한 것이 아니며, 또한 청구된 청구범위의 범주를 결정하는 것을 돕기 위한 것 또한 아니다. 예를 들어 "기술(technique)" 또는 "기능(facility)"과 같은 용어는, 전술된 맥락에 의해 그리고 본 명세서 전반에 걸쳐 허용되는 디바이스(들), 시스템(들), 방법(들) 및/또는 컴퓨터 판독가능한 명령을 지칭할 수 있다.

도 1은 모바일 디바이스와의 상호작용 멀티-모달 이미지 검색을 구현하는 예시적인 프레임워크를 도시한 도면.
도 2는 모바일 디바이스 상에서의 상호작용 멀티-모달 이미지 검색의 예시적인 사용자 인터페이스를 도시한 도면.
도 3은 모바일 디바이스 상의 컨텍스트-인식 이미지 검색을 도시한 멀티-모달 질의의 변화로부터 상호작용 멀티-모달 이미지 검색을 구현하는 예시적인 사용자 인터페이스를 도시한 도면.
도 4는 합성 시각적 질의를 조작 및 형성하도록 선택하기 위한 엔티티를 나타내는 후보 이미지들을 도시한 도면.
도 5는 모바일 상호작용 멀티-모달 이미지 검색을 위해 구성된 예시적인 모바일 디바이스의 선택 구성요소들을 도시한 블록도.
도 6은 모바일 상호작용 멀티-모달 이미지 검색을 구현하는 예시적인 프로세스를 도시한 순서도.
도 7은 연결된 히스토그램을 이용하여 기술된 이미지들을 비교하기 위한 예시적인 프로세스의 순서도.
도 8은 후보 이미지를 생성하기 위한 예시적인 클러스터링-기반 프로세스를 도시한 순서도.
도 9는 컨텍스트-인식 합성 이미지 기반의 이미지 검색 프로세스에 방법론적 주석이 달린 모습을 도시한 순서도.

아래의 상세한 설명은 첨부된 도면을 참조로 하여 기술되었다. 도면에서, 참조번호의 가장 왼쪽 숫자(들)는 참조번호가 처음 등장한 도면을 식별한다. 동일한 특성 및 구성요소를 인용하기 위해서 도면들에 걸쳐 동일한 번호들이 사용되었다.

모바일 상호작용 멀티-모달 이미지 검색 도구는 시각적 검색에 대한 관련 결과를 획득하도록 풍부한 기능들의 세트를 제공한다. 대게 텍스트-투-검색(text-to-search)을 지원하는 데스크톱 컴퓨터에 비교하여, 모바일 디바이스는 이용을 용이하게 하고 더욱 관련성 있는 결과를 획득하도록 사용될 수 있는 사용자 상호작용을 위한 보다 풍부한 인터페이스들의 세트를 제공한다. 예를 들어, 데스크톱 환경에서 수신된 종래의 키보드 및 마우스 입력을 넘어, 모바일 디바이스는 추가적인 멀티-모달 입력(multi-modal input)을 수신할 수 있다. 모바일 디바이스는 일부 경우에 멀티-터치 입력을 수용하는 터치 스크린 인터페이스에 추가로, 구술 인식(speech recognition)을 통한 음성 양식(modality) 및 내장 카메라를 통해서 시각적 양식과 텍스트 입력을 결합할 수 있다. 멀티-터치 인에이블 인터페이스는 복수의 동시적인 터치 입력을 인식한다.

시각적 검색에서 마주하게 되는 과제들 중 하나는 검색 의도가 함축적(implicit)일 수 있다는 것이다. 함축적인 검색 의도란 사용자가 캡처-투-검색이 실현 가능하도록 특정한 시각적 검색 의도와 일치하는 배경에 존재하지 있지 않을 수 있지만, 사용자가 음성 기술 또는 텍스트 입력과 같은 다른 양식을 통해서 검색 의도를 표현할 수 있다는 것을 의미한다.

예를 들어, 사용자는 빨간색 문과 그 앞에 두 개의 사자 석상이 있는 레스토랑을 검색할 수 있다. 그러나, 사용자는 검색에 착수하기 위한 레스토랑의 이름을 기억하지 못할 수 있다. 이러한 예시에서, 본 명세서에 기술되는 바와 같은 모바일 상호작용 멀티-모달 이미지 검색 도구에 의해 제공되는, 예를 들어 구두 질의(spoken query)와 같은 오디오 또는 긴 텍스트를 시각적 질의로 트랜스퍼(transfer)하여 사용자 상호작용을 레버리지(leverage)할 수 있는 클라이언트 측 도구가, 레스토랑을 식별하고 레스토랑의 이름 및 위치를 판단하도록 사용될 수 있다. 다른 예시로서, 사용자가 어느 도시에 방문중일 수 있으며 어느 레스토랑(또는 레스토랑 체인)이 해당 도시에 위치하고 있음을 기억하고 있지만 그 장소를 기억하지 못할 수 있고, 따라서 사용자는 해당 도시를 구두 질의의 일부로서 포함할 수 있다.

모바일 상호작용 멀티-모달 이미지 검색 도구는 함축적인 검색 의도를 결정하는 것을 돕도록 터치 및 멀티-터치 상호작용을 포함하는 멀티-모달 상호작용을 레버리지하고, 질의 이미지가 처음에 입수가능하지 않은 경우를 포함하여 시각적 검색의 성능을 향상시킨다. 본 명세서에 기술된 검색 절차는 다음을 포함한다: 1) 예를 들어 모바일 디바이스에 대한 질의로서 구두의 자연스러운 문장과 같은 오디오 입력과 같은 초기 입력을 수신, 2) 오디오 입력을 텍스트로 트랜스퍼하도록 구술 인식을 사용, 3) 엔티티 추출에 의해 텍스트를 키워드로 분해, 4) 이미지 클러스터링 프로세스에 의해 추출된 엔티티에 따라서 후보 이미지를 식별, 5) 각 엔티티를 시각적으로 나타낼 수 있는 특정한 후보 이미지의 선택을 수신, 6) 질의 이미지를 구성하기 위해 서로에 대한 선택된 특정한 후보 이미지의 구체화(refinement)를 수신, 및 7) 유사한 이미지에 대한 검색을 위해 시각적 질의로서 구성된 질의 이미지를 사용.

본 명세서에 기술된 모바일 상호작용 멀티-모달 이미지 검색 도구는 예를 들어 시각적 단어를 나타내는 작은 서브-이미지와 같은 이미지 패치들로서 처리되는 개별적인 이미지들 사이에서의 공간 관계를 고려한 이미지 검색에 대한 컨텍스트-인식(context-aware) 접근법을 제공한다. 모바일 상호작용 멀티-모달 이미지 검색 도구는 특정한 후보 이미지를 선택하고, 선택된 후보 이미지들을 서로에 대해 리사이징(resizing)하고 이동시키는 것(maneuvering)을 포함하여 선택된 후보 이미지를 조작하며, 상호작용 캔버스(interactive canvas) 상에서 합성 질의 이미지를 생성하기 위해 조작된 이미지들을 조각그림 맞추기(jigsaw puzzle)의 조각처럼 함께 놓음으로써, 사용자로 하여금 합성 질의 이미지를 형성할 수 있게 하는 새로운 검색 모드를 위한 인터페이스를 제시한다.

예시적인 프레임워크

도 1은 본 명세서에 기술된 바와 같은 상호작용 모바일 이미지 검색을 위한 프레임워크(100)를 도시한다. 예시적인 프레임워크(100)는 적어도 하나의 서버(104)에 의해 호스팅된 클라우드 사이드(102)와 함께 도시되었다. 서버(104)는 메모리(106), 저장 프로그래밍(108) 및 프로세서(110)를 포함한다. 클라이언트 사이드(114)로부터 하나 이상의 모바일 디바이스(112)는 점선에 의해 표현되는 네트워크(116)를 통해 서버(104) 및 다른 클라우드-기반 디바이스로 접속할 수 있다. 서버(104)는 예를 들어 웹 서버, 애플리케이션 서버 및 임의의 수의 다른 데이터 서버를 포함할 수 있다. 네트워크(116)는 예를 들어 인터넷을 포함하는 임의의 유형의 통신 네트워크를 나타낸다. 모바일 디바이스(112)는 네트워크(116) 상에서 데이터를 전송 및 수신하도록 구성된 임의의 유형의 모바일 디바이스를 나타낸다. 예를 들어, 모바일 디바이스(112)는 모바일폰, PDA, 넷북, 태블릿 컴퓨터, 휴대용 컴퓨터 및 감소된 형태 인자 및 리소스 제한으로 특징화된 이러한 다른 모바일 컴퓨팅 디바이스로서 구현될 수 있다.

프레임워크(100)는 모바일 디바이스(112)로부터 검색 의도를 인식하기 위한 멀티-모달 상호작용성을 사용하며 시각적 검색을 위해 서로 다른 시각적 디스크립터(예를 들어, SIFT(Scale-Invariant Featrue Transform), 색상 및 에지)를 결합할 수 있다. 소정의 동작들이 도 1의 클라우드(102)에서 발생하는 것으로 도시되었지만, 다양한 구현에서 이러한 동작들 중 하나 이상의 모바일 디바이스(112) 상에서 발생할 수 있다.

도시된 예시에서, 모바일 디바이스(112)는 (118)에서 도시된 바와 같이 음성 질의를 개시하도록 음성 프로세서 및 마이크로폰을 통해 자연 문장 입력을 수신한다. 예를 들어, 모바일 디바이스(112)는 (118)에서 도시되 바와 같이 "호수, 하늘 및 나무가 있는 이미지를 찾아라"와 같은 문장을 수신한다. 시스템은 (118)에서 수신된 구술(speech)을 텍스트의 조각으로 트랜스퍼하도록 구술 인식(SR; speech recognition) 엔진(120)을 사용한다. 시스템은 그 다음 텍스트로부터 명사인 엔티티를 추출하도록 엔티티 추출 엔진(122)을 사용한다. 그 결과, 도구는 어휘(124)로부터 "호수" 하늘" 및 나무"를 세 개의 엔티티로서 인식한다. 이미지 클러스터링 엔진(126)은 인식된 엔티티를 표현하기 위해 각각의 이미지 패치로서 사용될 수 있고 세 개의 엔티티 각각에 해당하는 이미지 데이터베이스(128)로부터 후보 이미지를 식별한다.

매칭 이미지 태그 주변의 텍스트를 검색하는 것은 단지 그룹보다는 개별적으로 각각의 엔티티만을 어드레스하기 때문에, 이미지 검색을 위해 문자 질의로서 추출된 엔티티를 직접 이용하는 것은 관련 결과를 반환하지 않을 수 있다. 또한, 서로에 대해 추출된 엔티티를 나타내는 이미지의 크기 및/또는 위치를 설명하기 위한 기능을 제공하지 않는다. 따라서, 상호작용 멀티-모달 이미지 검색 도구는 각 엔티티에 대한 특정 이미지가 선택될 수 있도록 후보 이미지의 사전정의된 수를 나타내며, 합성 시각적 질의는 (130)에 도시된 바와 같이 선택된 이미지로부터 합성될 수 있다.

상호작용 멀티-모달 이미지 검색 도구는 인터넷과 같은 다른 소스로부터 일부 예시에서 또는 이미지 데이터베이스(128)로부터 관련 이미지에 대한 검색을 위해 합성 시각적 질의를 탐험(exploit)한다. 상호작용 멀티-모달 이미지 검색 도구는 (132)에 도시된 바와 같이 각각의 시각적 콘텐츠 및 선택된 이미지의 상대적인 위치 및 크기에 기초하여 컨텍스트-인식 이미지 검색을 지휘한다. 컨텍스트-인식 이미지 검색에 응답하여, 상호작용 멀티-모달 이미지 검색 도구는 모바일 디바이스(112)가 시각적 결과로 반환되도록 한다.

예시적인 사용자 인터페이스

도 2는 모바일 디바이스(112) 상에서의 상호작용 멀티-모달 이미지 검색을 사용하기 위한 사용자 인터페이스 구성요소의 예시를 도시한다(200). 도시된 예시에서, 모바일 디바이스(112)는 Windows Phone® 디바이스를 나타내지만, 다른 모바일폰, 스마트폰, 태블릿 컴퓨터 및 이러한 다른 모바일 디바이스가 유사하게 사용될 수 있다. 모바일 디바이스(112) 상에서, 하드 또는 소프트 버튼(202)의 활성화는 오디오 입력을 시작하길 원한다는 것을 나타낸다. 전술된 바와 같이, 오디오 입력은 구술 인식 엔진(120)을 통해 수신되어 텍스트로 전환된다. 전환된 텍스트는 (204)에 도시된 바와 같이 모바일 디바이스(112)의 스크린 상에 제시될 수 있으며, 이는 텍스트의 일부가 잘못 전환되었을 경우에 편집을 가능하게 한다. 일부 다른 경우에서, 초기 음성 입력보다는, 텍스트 입력이 상호작용 멀티-모달 이미지 검색을 시작하도록 모바일 디바이스(112) 상에서 하드 또는 소프트 키를 통해 수신될 수 있다.

따라서, 다양한 구현에서 상호작용 멀티-모달 이미지 검색 도구는 자연 문장 및 문단 조각을 수용할 수 있는 SR 엔진을 이용함으로써 사용자가 질의를 시작하는 것을 돕도록 음성 입력을 레버리지하며, 그 다음 Hidden Markov Model(HMM) 기반 SR 엔진과 같이 구술을 텍스트로 바꾼다.

예시적인 SR 엔진(102)은 수신된 구술이 특성 공간(feature space)에서 콤팩트하고 의미있는 표현(벡터)으로 변환되는 통계적 모델링 프레임워크를 사용한다. 예시적인 SR 엔진(120)의 디코더는 특성 벡터를 입력으로 취하여 음향 및 언어 모델에 기초하여 가정된 단어 시퀀스에 대한 가능성을 생성한다.

예시적인 SR 엔진(120)으로부터의 출력은 이미지 검색을 위해 질의로서 사용될 수 있다. 상호작용 멀티-모달 이미지 검색 도구는 "나무", "호수", "차" 및 "집"과 같은 명사 키워드인 엔티티를 추출하도록 SR 엔진(120)으로부터 출력을 프로세싱한다. 엔티티 추출 엔진(122)은 몇몇 후보 이미지에 의해 표현될 수 있는 단어들을 검출할 수 있다. 복수의 후보 이미지가 식별될 때, 후보 이미지들 중 특정 이미지가 검색 의도를 나타내도록 구체화(refinement)를 위해 선택될 수 있다. 따라서, 도구는 "집", "호수" 및 "나무"와 같은 엔티티로서 시각적으로 의미있는 명사 단어/구절을 검출하는 반면, "법" 및 "휴일"과 같이 시각적이지 않은 기술적인(descriptive) 명사를 폐기한다. 일부 구현에서 엔티티로서 검출되는 도시명은 시각적이지 않은 기술적인 명사로서 처리될 수 있다. 몇몇 이러한 예시들에서 도시명이 폐기되고, 다른 경우에서는 도시명이 명사의 개별적인 카테고리로서 이후에 사용하기 위해 보존된다.

이를 위해서, 상호작용 멀티-모달 이미지 검색 도구는 구체적인 시각적 표현을 갖는 명사들을 수집함으로써(예를 들어, 155,287개의 단어들로부터 117,798개의 명사를 수집함으로써) 어휘(124)와 같은 어휘 또는 엔티티 사전을 구성할 수 있다. 예시적인 구현에서, 명사가 구체적인 시각적 표현을 여부에 대한 판정은 규칙적으로 업데이트되는 이미지 데이터베이스(128) 내의 이미지들의 임의의 태그에 포함된다. 적어도 하나의 구현에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지 데이터베이스 내의 이미지의 문턱값 수(예로서, 100개)보다 적은 명사를 생략하며, 그에 따라 더 적은 수의 고유한 단어들이 유지되게 한다(예를 들어, 22,117개의 고유 단어들을 유지한다).

또한, 적어도 하나의 구현에서, 상호작용 멀티-모달 이미지 검색 도구는 "수퍼맨" 및 "에펠"과 같은 입력을 고려하도록 유명인의 이름, 인기있는 제품 및 랜드마크와 같은 다른 엔티티를 포함한다. 상호작용 멀티-모달 이미지 검색 도구는 인터넷을 마이닝(mining)함으로써 이러한 추가적인 엔티티들을 획득할 수 있고/있거나 추가적인 엔티티가 상업적인 검색 엔진으로부터의 질의에 기초할 수 있다. 예시적인 구현에서, 엔티티 추출 엔진(122)에 의해 수행되는 엔티티 추출의 일부로서, 구두 질의 내의 단어들이 어휘(124)로부터 가장 긴 매치에 할당된다. 예를 들어, "북극곰(polar bear)"과 "에펠탑(Eiffel Tower)"은 알려진 의미를 제공하는 구절이다. 따라서, 이들은 어휘(124)로부터의 구절에 매칭되는 구절 엔티티로서 추출된다. 각각의 추출된 엔티티는 이미지 클러스터링 엔진(126)에 의해 수행되는 이미지 클러스터링에서 독립적으로 가장 긴 형태로 사용된다. 따라서, 추출된 구절 엔티티는 이미지 클러스터링 엔진(126)에 의해 개별적인 명사보다는 구절로서 사용된다. 따라서, 후에 컨텍스트-인식 이미지 검색(132)을 위해 합성 시각적 질의에서 이미지 패치로서의 역할을 하는 선택된 이미지는 개별적인 명사보다는 구절을 나타낼 수 있다.

예시적인 구현에서, 추출된 엔티티는 (206)에서 도시된 모바일 디바이스(112)의 스크린 상에 태그로서 제시된다. 반면에, 엔티티에 대한 후보 이미지들이 (208)에서 도시된 바와 같이 모바일 디바이스(112)의 스크린 상에 제시될 수 있다. 예시적으로 도시된 바와 같이, 하나의 엔티티 "나무"에 대한 후보 이미지가 모바일 디바이스(112)의 스크린의 캔버스 영역(210) 상으로 드래그됨으로써 특정 이미지가 선택되는 단일 수평 리본 포맷으로 제시된다. 반면에, 엔티티 "호수" 및 "하늘"에 대한 특정한 후보 이미지가 모바일 디바이스(112)의 스크린의 캔버스 영역(210) 상으로의 드래그를 통해 이미 선택되었다. 그러나, 다른 포맷들이 가능하고 고려된다. 예를 들어, 하나보다 많은 엔티티에 대한 후보 이미지들이 각각의 엔티티를 표현하도록 특정한 후보 이미지의 선택을 위해 스크린의 일부분 상에 수평 또는 수직 리본으로 동시에 제시될 수 있다.

캔버스 영역(210)은 캔버스 영역(210) 내의 이미지를 리사이징하고 이동시키도록 멀티-터치 입력을 포함하는 터치를 통한 선택된 이미지의 조작을 허용한다. 이러한 방식으로 시각적 검색을 위한 합성 질의 이미지는 현존하는 질의 이미지를 요청하지 않고 합성 질의 이미지 내의 각각의 이미지 패치의 크기 및 위치에 의해 정의된다. 도시된 예시에서, 상호작용 멀티-모달 이미지 검색 도구는 나무 및 하늘보다 낮은 캔버스 영역(210)의 프레임 내에 있는 것으로서 호수의 위치를 기록한다. 반면, 나무는 캔버스 영역(210)의 프레임 내의 우측에서 하늘 아래에 위치한 것으로 기록되며, 하늘은 캔버스 영역(210)의 가장 위에 있다. 다양한 구현에서, 하나 이상의 선택된 이미지들의 일부 또는 전부가 캔버스 영역(210) 내의 합성 질의 이미지를 형성할 때 다른 선택된 이미지에 겹쳐 놓일 수 있다. 이미지 부분이 겹쳐 놓임으로써 불분명한 경우, 불분명해진 부분이 폐기될 수 있거나 더 낮게 계산된 가중치가 부여될 수 있고/있거나 겹쳐 놓은 부분에 더 높게 계산된 가중치가 부여될 수 있다. 선택된 특정한 후보 이미지의 시각적 콘텐츠에 기초하여, 각각의 엔티티에 대한 콘텐츠는 하늘의 적운(cumulous cloud), 잎이 없는 나무 및 일부 가시적인 호안선을 갖는 잔잔한 호수를 포함한다.

검색 버튼(212)의 활성화는 캔버스 영역(210) 상에 정의된 합성 시각 질의 이미지에 기초하여 컨텍스트-인식 시각적 검색(132)을 시작한다. 다른 구현에서, 더블 탭 또는 다른 입력이 컨텍스트-인식 시각적 검색(132)을 시작할 수 있다. 검색 버튼(212)의 다양한 구현 활성화는 또한 선택된 이미지와 연관된 태그들이 상호작용 멀티-모달 이미지 검색 도구에 의해 이후에 이용하기 위해 저장되도록 한다.

(214)에서 도시된 예시에서 도시된 바와 같이, 모바일 디바이스(112)는 스크린 상의 컨텍스트-인식 시각적 검색(132)의 결과를 제시하도록 구성된다. 스크린 상의 터치 입력을 이용하여 결과가 스크롤될 수 있으며, 탭 또는 다른 이러한 입력을 통해 예를 들어 결과 이미지에 대한 추가적인 정보를 검색하기 위해서 결과들 중 하나가 선택될 수 있다. 이와 달리, 만약 검색 의도를 만족시키는 결과가 없다면, 합성 질의 이미지가 추가로 조작될 수 있도록 백 버튼(216)의 활성화가 스크린으로 하여금 이전 캔버스로 되돌아가게 할 것이다. 다른 한편으로, 모바일 디바이스의 다른 기능이 시작 버튼(218)을 활성화함으로써 액세스될 수 있다.

도 3은 (300)에서, 모바일 상호작용 멀티-모달 이미지 검색 도구를 이용하여 동일한 특정 선택된 후보 이미지로부터 구성되는 두 개의 합성 시각적 질의를 도시한다. 도시된 예시에서 도시된 바와 같이, 선택된 이미지는 상대적인 배치 및 크기가 시각적 질의로서 합성 이미지를 이용하는 컨텍스트-인식 이미지 검색의 실행에 기여하는 이미지 패치들로서 처리된다. 점선의 좌측에 (302)에서 나타내어진 합성 시각적 질의는 캔버스의 중심에서 수직으로 그리고 좌측을 향해 수평인 나무와 합성되었다. 반면, 점선의 우측에 (304)에서 나타내어진 합성 시각적 질의는 캔버스의 중심에서 수직으로 그리고 우측을 향해 수평인 나무와 합성되었다. 다른 예시에서, 이미지 패치들의 크기는 또한 추가적인 결과를 획득하도록 수정될 수 있다. (300)에서 보여진 바와 같이, 두 개의 합성 시각적 질의에서 동일한 저장된 태그를 가질 수 있는 동일한 이미지 패치들의 서로 다른 배치가 서로 다른 질의 결과가 반환되는 결과를 발생시킬 수 있다.

전술된 바와 같이, 본 명세서에서 기술된 상호작용 멀티-모달 이미지 검색 도구는 시각적 질의의 합성을 가능하게 하도록 터치 스크린 상호작용을 포함하는 모바일 디바이스의 멀티-모달 기능의 장점을 취한다. 오디오 또는 텍스트 입력과 같은 초기 입력으로부터 추출된 각각의 엔티티에 대해서, 시스템은 후보 이미지들의 세트를 반환한다. 엔티티마다 특정 이미지를 선택하는 것은 합성 시각적 질의가 형성된 캔버스 상으로 선택된 이미지가 드래그되는 것으로부터 인식된다. 합성 시각적 질의의 형성은 합성 시각적 질의 내의 이미지 패치들로서 역할을 하도록 선택된 이미지들의 각각의 조작을 통해 발생한다. 조작은 예를 들어 터치 및/또는 멀티-터치 입력을 통해서와 같이 캔버스 영역(210) 상에서 각각의 선택된 이미지의 위치 및 크기를 조정하는 것을 포함할 수 있다. 이러한 멀티-모달 상호작용은 예를 들어 다의어, 측면, 관점, 위치 및 속성을 포함하는 현존하는 텍스트 기반 이미지 검색 시스템에서 발생하는 다양한 모호성을 해결한다.

본 발명의 맥락에서, 다의어, 측면, 관점, 위치 및 속성은 다음의 의미를 갖는다: 다의어는 애플(과일 또는 제품명), 풋볼(유럽식 풋볼 또는 미국식 풋볼)과 같은 복수의 의미를 갖는 단어를 의미하고; 측면은 예를 들어 애플(기업 또는 제품), 풋볼(물체 또는 게임)과 같이 단어가 서로 다른 개념을 나타낼 수 있음을 나타내고; 관점은 자동차(측면 또는 전면) 또는 사무실(내부 또는 외부)과 같이 서로 다른 각도 또는 시각으로부터의 다양한 외양을 가질 수 있는 대상을 의미하고; 위치는 타겟 이미지 내의 대상의 예상된 장소를 나타내며; 속성은 색상, 유형 및 데코레이션과 같은 엔티티의 프로퍼티(property)을 정의한다. 각각의 이러한 모호성은 오디오 또는 텍스트 질의로부터 시각적 검색 의도를 유도하는 것을 어렵게 할 수 있다.

표 1은 도 4에 도시된 바와 같은 다양한 이미지 특성들을 나타내도록 사용될 수 있는 표기법을 나열한다.

도 4에 도시된 바와 같이, (400)에서, 합성 캔버스 상의 복수의 선택된 이미지를 조작함으로써 시각적 질의의 상호작용 합성은 검색 의도의 유도를 허용한다. 특히, "애플 및 바나나 다발이 있는 사진을 찾아라"(402)와 같은 음성 질의로부터, 상호작용 멀티-모달 이미지 검색 시스템은 엔티티들의 세트 (키워드)

(404)를 인식할 것이며, 각각의 엔티티에 대한 후보 이미지들의 리스트를 반환할 것이다. 다양한 구현에서 각각의 엔티티에 대한 후보 이미지의 리스트는 상호작용 멀티-모달 이미지 검색 도구에 의해 이후에 사용하기 위해 저장된다.

도 4에 도시된 바와 같이, T^(k)는 하나의 엔티티를 나타내고 K는 텍스트 질의 T 내의 엔티티들의 개수이며, 도시된 두 예시에서: T⁽¹⁾="애플"(406)이고, T⁽²⁾="바나나 한 다발"(408)이다.

다른 구현에서, 사용자는 더 많은 수의 이미지(예를 들어, 이미지 데이터베이스 또는 검색 엔진으로부터의 상단 이미지 검색 결과)로부터 후보 이미지를 수동으로 선택할 수 있다. 또 다른 구현에서, 데이터베이스로부터의 이미지는 단순히 데이터베이스와 일반적인 웹 이미지 사이의 도메인에 걸친 차이를 수용하는 태그에 기초하여 이용될 수 있다.

적어도 하나의 구현에서, 상호작용 멀티-모달 이미지 검색 도구는 각 엔티티에 대한 후보 이미지를 식별하기 위해 자동화된 프로세스를 이용한다. 예를 들어, 상호작용 멀티-모달 이미지 검색 도구는 알려진 이미지 데이터베이스 및 이미지 검색 엔진의 결과를 탐험함으로써 주어진 엔티티에 대한 후보 이미지를 식별하기 위해서 시각적 특성 및 유사성 메트릭에 기초한 클러스터링-기반(clustering-based) 접근법을 사용한다. 도 4는 엔티티 T⁽¹⁾및 T⁽²⁾에 대한 후보 이미지의 예시들을 리본 형태로 제시한다. T⁽¹⁾에 대한 후보 이미지의 리본은 (410)(1)에 도시되었고, T⁽²⁾에 대한 후보 이미지의 리본은 (410)(2)에 도시되었다.

상호작용 멀티-모달 이미지 검색 도구는 각 엔티티에 상응하는 특정한 후보 이미지의 선택을 수신할 뿐 아니라, 상호작용 멀티-모달 이미지 검색 도구가 합성 시각적 질의를 만들어내는 캔버스 영역(210) 상의 선택된 이미지에 대한 재위치 및 리사이징을 지시한다. 따라서, 합성 시각적 질의는 구성요소들의 세트

로서 표현될 수 있으며, 이때 각 구성요소 C^(k)는 하나의 엔티티 T^(k)뿐 아니라 캔버스 영역(210) 상의 선택된 이미지를 포함하는 직사각형 영역의 위치와 크기 R^(k) 및 선택된 이미지 I^(k)에도 상응한다. 따라서, (412)에 도시된 바와 같이, C^(k)는 트리플릿(T^(k), I^(k), R^(k))에 의해 정의될 수 있다.

합성 시각적 질의가 인식된 엔티티, 선택된 이미지 및 그들의 의도된 위치를 포함하는 것으로 주어졌지만, 태스크는 질의와 맥락적으로 관련된 타겟 이미지를 검색하기 위한 것이다. 본 명세서에서 사용되는 관련성(relevance)이라는 표현은 타겟 이미지가 원하는 위치에 있는 시각적으로 유사한 객체 및 엔티티 키워드 모두를 나타내도록 기대된다는 것을 의미한다. 따라서, 캔버스 영역(210)과 같은 캔버스 상에 형성된 합성 시각적 질의(414)에 대한 타겟 이미지는 위에 작은 사과가 있고 그 바로 아래에 바나나 다발을 포함하는 현실적인 이미지 또는 사진을 각각 포함할 것이다. 시각적 질의와 타겟 이미지 사이의 관련성은 지시된 위치에 기초한 의도 견지성과 시각적 유사성에 의해 측정될 수 있다.

상호작용 멀티-모달 이미지 검색 도구는 이미지 검색을 위해 복수의 유형의 이미지 특징 분석을 사용한다. 예를 들어, 적어도 하나의 구현에서, 도구는 이미지 검색을 위해서 타겟 이미지에 대해 합성 시각적 질의의 SIFT(Scale-Invariant Feature Transform), 색상 히스토그램 및 경사 히스토그램을 비교한다. SIFT와 같은 로컬 기술어(local descriptor)가 일부 종류의 이미지에 대해 잘 수행하지 않을 수 있기 때문에, 도구는 색상 및 경사 히스토그램의 차별적 일률(discriminative power)을 탐험한다. SIFT가 잘 수행하지 않을 수 있는 하나의 예시적인 종류는 랜드마크를 포함하지 않는 풍경 또는 자연 경관을 의미하는 장면을 포함한다. SIFT가 잘 수행하지 않을 수 있는 다른 예시적인 종류는 유명인을 포함하지 않은 임의의, 익명의, 또는 알려지지 않은 사람 또는 사람들의 사진 또는 이미지를 의미하는 사람들의 사진을 포함한다. 이러한 종류는 그 다양한 모습으로 인해 SIFT 공유되는 특징을 포함하지 않을 수 있다. 그러나, 상호작용 멀티-모달 이미지 검색 도구는 장면, 사람들 및 그외의 다른 종류들에 대한 이미지 검색을 위해서 이러한 종류들 내에서의 색상 및/또는 패턴 유사성을 이용할 수 있다.

예시적인 모바일 디바이스

도 5는 본 명세서에 기술된 바와 같은 상호작용 멀티-모달 이미지 검색 기능을 제공하도록 구성된 예시적인 모바일 디바이스(112)의 선택 구성요소를 도시한다. 예시적인 모바일 디바이스(112)는 네트워크 인터페이스(502), 마이크로프로세서를 포함할 수 있는 하나 이상의 프로세서(504), 음성 프로세서(506), 하나 이상의 마이크로폰(508) 및 메모리(510)를 포함한다. 네트워크 인터페이스(502)는 모바일 디바이스(112)가 네트워크(116) 상에서 데이터를 전송 및/또는 수신할 수 있게 한다. 네트워크 인터페이스(502)는 또한 모바일 디바이스(112)가 웹 기반 데이터 및 셀룰러 전화기 네트워크 기반 데이터를 포함하지만 이것으로 한정되는 것은 아닌 다양한 유형의 통신을 전송 및/또는 수신할 수 있게 하기 위한 다른 통신 인터페이스들의 임의의 조합을 나타낼 수 있다.

운영 시스템(OS)(512), 브라우저 애플리케이션(514), GPS 모듈(516), 콤파스 모듈(518), 상호작용 멀티-모달 이미지 검색 도구(520) 및 임의의 수의 다른 애플리케이션(522)이 컴퓨터 판독가능한 명령으로서 메모리(510) 내에 저장되며, 적어도 부분적으로 프로세서(504) 상에서 실행된다.

브라우저 애플리케이션(514)은 인터넷 상에서 입수가능한 웹 콘텐츠가 액세스될 수 있는 사용자 인터페이스를 제공하기 위해 모바일 디바이스(112) 상에서 실행될 수 있는 다양한 애플리케이션을 나타낸다.

GPS 모듈(516)은 GPS에 따라 모바일 디바이스(112)의 지리학적 위치를 결정 모니터링 및/또는 추적하기 위해서 모바일 디바이스(112) 상에서 구현되는 임의의 기능을 나타낸다. 예시로서, GPS 모듈(516)은 단일-밴드 또는 멀티-밴드 트랜시버 내에 집적될 수 있다. 다른 예시로서, GPS 모듈(516)은 모바일 디바이스(112)의 사용자에게 맵 및/또는 네비게이션 방향을 제공하도록 적어도 부분적으로 사용될 수 있다. 본 명세서에서 기술되는 바와 같은 GPS 모듈(516)은 모바일 디바이스(112)가 앞서 위치되었던 장소들의 히스토리를 보관하도록 및/또는 임의의 주어진 시간에서 모바일 디바이스(112)의 현재 위치를 식별하도록 구성될 수 있다.

콤파스 모듈(518)은 모바일 디바이스의 현재 지리적 방향을 결정하도록 모바일 디바이스(112) 상에서 구현된 임의의 기능을 나타낸다. 예시적인 구현에서, 콤파스 모듈(518)로부터 얻어진 정보가 예를 들어 추가적인 위치 정보를 제공하기 위해서 GPS 모듈(516)로부터 얻어진 정보와 결합될 수 있다.

다른 애플리케이션(522)은 모바일 디바이스(112) 상에서 실행가능한 임의의 수의 다른 애플리케이션을 포함할 수 있다. 이러한 다른 애플리케이션은 이메일 애플리케이션, 캘린더 애플리케이션, 트랜잭션 모듈, 음악 플레이어, 카메라 애플리케이션, 계산기, 하나 이상의 게임, 하나 이상의 생산성 도구, 즉석 메시징 애플리케이션, 가속도계 등을 포함할 수 있다.

상호작용 멀티-모달 이미지 검색 도구(520)는 하나 이상의 구술 인식 모듈(524), 엔티티 추출 모듈(526), 이미지 클러스터링 모듈(528), 사용자 인터페이스 모듈(530), 캔버스 모듈(532), 시각적 질의 합성 모듈(534), 컨텍스트 인식 모듈(536), 이미지 검색 모듈(538) 및 잠재적인 다른 상호작용 멀티-모달 이미지 검색 구성요소(540)를 포함한다.

구술 인식 모듈(524)은 구술 인식 엔진(120)의 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 구술 인식 모듈(524)은 오디오 콘텐츠 또는 입력 내의 단어들을 식별하여 식별된 단어들을 텍스트로 변환한다. 예를 들어, 구술 인식 모듈(524)은 마이크로폰(508)으로부터의 입력을 프로세싱하도록 음성 프로세서(506)에 의해 실행될 수 있다. 이와 달리 또는 이에 더하여, 구술 인식 모듈(524)은 음성 프로세서(506)를 바이패스하고 직접 음성 입력을 수신하도록 구성될 수도 있다. 구술 인식 모듈(524)은 또한 오디오 데이터의 텍스트 표현을 생성하도록 다른 유사한 데이터 소스 및 앞서 저장된 오디오 파일에 액세스할 수도 있다. 구술 인식 모듈(524)은 질의를 텍스트 형태로 출력한다.

엔티티 추출 모듈(526)은 엔티티 추출 엔진(122)의 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 엔티티 추출 모듈(526)은 구술 인식 모듈(524)로부터 출력된 텍스트 내의 명사, 특히 후보 이미지들에 의해 시각적으로 표현될 수 있는 명사를 검출한다. 일부 실시예에서, 엔티티 추출 모듈(526)은 복수의 방법들 중 하나로 생성된 텍스트 질의로부터 시각적으로 표현가능한 명사를 검출한다. 예를 들어, 프로세서(504)에 의해 실행되는 엔티티 추출 모듈(526)은, "집", "호수" 및 "나무"와 같이 시각적으로 의미있는 명사 단어/구절을 엔티티로서 검출하는 반면, "법" 및 "휴일"과 같이 시각적으로 묘사가능하지 않은 명사들을 폐기한다. 다양한 실시예에서, 엔티티 추출 모듈(526)은 구체적인 시각적 표현을 갖는 명사들을 수집함으로써 어휘(124)와 같은 어휘 또는 엔티티 사전을 구성하도록 엔티티를 기여시킨다.

이미지 클러스터링 모듈(528)은 이미지 클러스터링 엔진(126)의 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 이미지 클러스터링 모듈(528)은 엔티티 추출 모듈(526)에 의해 추출된 엔티티 각각에 일치하는 후보 이미지를 예로서 이미지 데이터베이스(128)로부터 식별한다. 예를 들어, 프로세서(504)에 의해 실행될 수 있는 이미지 클러스터링 모듈(528)은 인식된 엔티티를 표현하기 위해서 합성 이미지 내의 각각의 이미지 패치들로서 사용될 수 있는 사전정의된 수의 후보 이미지를 식별한다.

임의의 다양한 이미지 데이터의 소스의 조합이 이미지 콘텐츠를 식별하도록 액세스될 수 있다. 예시적인 구현에서, 검색 서비스는 인터넷 검색 서비스에 의해 전형적으로 유지되는 "상위 스토리" 또는 "상위 검색"에 기초하여 현재 인기있는 이미지 또는 이미지 주제를 식별하도록 사용될 수 있다. 다른 컨텍스트 정보는 이미지 콘텐츠의 소스를 식별하도록 사용될 수 있다. 기술들의 임의의 조합이 이미지 콘텐츠의 소스를 식별하도록 사용될 수 있으며, 이러한 소스들의 임의의 조합이 이용가능한 후보 이미지를 식별하도록 사용도리 수 있다.

사용자 인터페이스 모듈(530)은 모바일 디바이스(112)의 다른 기계적 및/또는 소프트웨어 사용자 인터페이스 구성요소의 동작을 위한 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 예를 들어, 프로세서(504)에 의해 실행될 수 있는 사용자 인터페이스 모듈(530)은, 상호작용 멀티-모달 이미지 검색 도구(520)의 컨텍스트 내의 하드 또는 소프트 버튼(202), 백 버튼(216) 및/또는 시작 버튼(218)의 기능을 제어할 수 있다. 사용자 인터페이스 모듈(530)은 이미지 클러스터링 모듈(528)에 의해 식별된 후보 이미지들의 특정 이미지 선택을 가능케 한다. 예를 들어, 사용자 인터페이스 모듈(530)은 (208)에서 도시된 바와 같이 모바일 디바이스(112)의 스크린 상에 스크롤 가능한 리본 형태로 제시된 특정한 후보 이미지의 선택을 제공한다.

도시된 예시에서와 같이 또는 일부 구현에서 별개로, 사용자 인터페이스 모듈(530)의 프로그래밍의 부분으로서 포함될 수 있는 캔버스 모듈(532)은 모바일 디바이스(112)의 터치 스크린의 사용자 인터페이스의 상호작용 캔버스 영역(210)의 동작을 위한 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 예를 들어, 프로세서(504)에 의해 실행될 수 있는 캔버스 모듈(532)은 선택된 이미지가 터치 사용자 인터페이스를 이용하여 스크린의 캔버스 영역(210) 내에 배치되었을 때 사용자 인터페이스 모듈(530)을 통해 선택된 이미지를 기록한다.

시각적 질의 합성 모듈(534)은 캔버스 모듈(532)에 의해 기록된 선택된 이미지로부터 합성 시각적 질의를 합성하기 위한 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 예를 들어, 프로세서(504)에 의해 실행될 수 있는 시각적 질의 합성 모듈(534)은, 선택된 이미지가 스크린과의 터치 상호작용을 통해서 사용자 인터페이스의 캔버스 영역(210) 상의 합성 시각적 질의의 이미지 패치를 형성하도록 조작될 때 선택된 이미지의 위치 및 상대적인 크기를 기록한다. 또한, 시각적 질의 합성 모듈(534)은 검색을 위해서 합성 시각적 질의를 제출할 수 있다.

컨텍스트 인식 모듈(536)은 시각적 질의 합성 모듈(534)로부터 합성 시각적 질의의 적어도 일부분에 기초하여 컨텍스트 인식 이미지 검색을 수행하기 위한 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 예를 들어, 프로세서(504)에 의해 실행될 수 있는 컨텍스트 인식 모듈(536)은 합성 시각적 질의를 구성하는 이미지 패치들의 시각적 컨텍스트를 알아낼 수 있다. 컨텍스트 인식 모듈(536)은 선택되지 않은 후보 이미지에 비교된 선택된 특정한 후보 이미지에 의해 극복되는 모호성에 적어도 부분적으로 기초하여 시각적 컨텍스트를 알아낼 수 있다. 예를 들어, 도 4의 추출된 엔티티 "애플"에 대한 후보 이미지(410(1))는 명사 "애플"과 연관된 모호성을 도시한다. 과일의 이미지가 선택되었을 때, 컨텍스트 인식 모듈(536)은 해당 질의가 애플사(Apple Corporation)에 의해 제작된 전자 제품의 이미지를 찾기 위한 것이 아니라고 추론할 수 있다. 컨텍스트 인식 모듈(536)은 모바일 디바이스(112)의 스크린 상에 디스플레이될 이용가능한 컨텍스트 인식 이미지 검색의 결과를 생성한다.

일부 경우에서, 엔티티 추출 모듈(526) 및/또는 컨텍스트 인식 모듈(536)은 오디오 입력 내의 "-와 가까운" 또는 "이 부근의"와 같은 입력을 식별할 수 있으며, 모바일 디바이스(112)의 현재 또는 기대하던 미래 위치를 포함하는 임의의 조합에 기초하여 맥락적으로 관련될 수 있는 합성 시각적 질의로부터 반환된 결과 및/또는 후보 이미지로 위치 기반 컨텍스트 정보를 적용시킬 수 있다. 예를 들어, 사용자가 GPS 모듈(516) 및/또는 콤파스 모듈(518)로부터의 위치 정보를 수집 및 이용하는 상호작용 멀티-모달 검색 도구에 동의하였을 때, GPS 모듈(516) 및 콤파스 모듈(518)로부터 획득된 컨텍스트 정보에 기초해서 이동(travel)의 현재 위치 및 방향이 결정될 수 있다. 현재 위치와 관련된 후보 이미지 및/또는 합성 시각적 질의 결과는 질의, GPS 정보 및/또는 콤파스 정보에 포함되는 하나 이상의 도시 정보로부터의 위치 정보에 기초하여 맥락적으로 관련된 것으로서 식별될 수 있다. 다른 예시에서, 이러한 위치 정보는 반환된 시각적 질의 결과를 랭크하도록 사용될 수 있다.

이미지 검색 모듈(538)은 시각적 질의 합성 모듈(534)로부터의 합성 시각적 질의 및/또는 컨텍스트 인식 모듈(536)로부터의 결과에 적어도 부분적으로 기초한 이미지 검색을 수행하기 위한 프로그래밍의 전부 또는 일부와 일관적으로 동작하며, 이를 구성할 수 있다. 예를 들어, 프로세서(504)에 의해 실행될 수 있는 이미지 검색 모듈(538)은 합성 시각적 질의를 구성하는 하나 이상의 이미지 패치의 벡터 일치에 기초하여 이미지 검색 결과를 식별할 수 있다. 이미지 검색 모듈(538)은 모바일 디바이스(112)의 스크린 상에 디스플레이될 이용가능한 이미지 검색의 결과를 만들 수 있다.

일부 실시예에서, 다른 상호작용 멀티-모달 이미지 검색 구성요소(540)는 합성 시각적 질의를 수행하도록 다른 상호작용 데이터의 컨텍스트를 적용할 수 있다. 예를 들어, 사용될 수 있는 다른 컨텍스트 데이터는, 최근 검색, 인스턴트 메시징 정보, 최근 액세스된 애플리케이션(예를 들어, 게임, 생산성 애플리케이션 등)을 식별하는 데이터, 모바일 디바이스(112)가 움직이는 속도를 결정하도록 사용될 수 있는 가속도계 데이터 등을 포함할 수 있지만, 이것으로 한정되는 것은 아니다.

도 5에는 모바일 디바이스(112)의 메모리(510) 내에 저장된 것으로 도시되었지만, 일부 구현에서 상호작용 멀티-모달 이미지 검색 도구(520) 또는 그의 일부는 클라우드(102)와 같이 클라우드 기반 구현을 통해 실행되고/되거나 하나 이상의 서버(104) 상에 저장될 수 있다. 또한, 일부 구현에서, 상호작용 멀티-모달 이미지 검색 도구(520) 또는 그의 일부는, 모바일 디바이스(112)에 의해 액세스 가능한 컴퓨터 판독가능한 매체의 임의의 형태를 이용하여 구현될 수 있다. 또한, 일부 실시예에서, 운영 시스템(512)의 하나 이상의 구성요소, 브라우저 애플리케이션(514), GPS 모듈(516), 상호작용 멀티-모달 이미지 검색 도구(520) 및/또는 다른 애플리케이션(522)이 모바일 디바이스(512)의 일부인, 또는 모바일 디바이스(112)에 액세스 가능한 집적 회로의 일부로서 구현될 수 있다. 또한, 모바일 디바이스(112) 상에 구현된 것으로서 도시되고 기술되었지만, 일부 실시예에서 본 명세서에 기술된 것과 같은 상호작용 멀티-모달 이미지 검색 도구(520)에 의해 제공된 다른 기능 및 데이터 액세스는, 사용자가 데스크톱 컴퓨터 시스템 및 랩탑 컴퓨터 시스템을 포함하지만 이것으로 한정되는 것은 아닌 상호작용 멀티-모달 시각적 검색을 수행할 수 있고 멀티-모달 입력을 위해 구성된 다른 유형의 컴퓨팅 디바이스 상에서 구현될 수 있다.

본 명세서에서 사용되는 컴퓨터 판독가능한 매체는, 적어도 두 가지 유형의 컴퓨터 판독가능한 매체, 즉 컴퓨터 저장 매체 및 통신 매체를 포함한다. 컴퓨터 저장 매체는, 컴퓨터 판독가능한 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 제거가능 및 제거 불가능 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD 또는 다른 광학 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스, 또는 컴퓨팅 디바이스에 의해 액세스하기 위해 정보를 저장하도록 사용될 수 있는 임의의 다른 비전송 매체를 포함할 수 있지만 이것으로 한정되는 것은 아니다.

반면에, 통신 매체는 컴퓨터 판독가능한 명령, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호 내의 다른 데이터를 구현할 수 있다. 본 명세서에서 정의된 바와 같이, 컴퓨터 저장 매체는 전송을 수행하기 위해 필요한 임의의 하드웨어 구성요소를 제외하는 통신 매체를 포함하지 않는다.

예시적인 동작

도 6 내지 9는 본 명세서에 기술된 바와 같이 상호작용 멀티-모달 이미지 검색 도구(520)를 구현하기 위한 예시적인 프로세스를 도시한다. 이러한 프로세스는 하드웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있는 동작들의 시퀀스를 나타내는 논리적 흐름 그래프의 블록들의 수집으로서 도시되었다. 소프트웨어의 맥락에서, 블록들은 하나 이상의 프로세서에 의해 실행되었을 때, 프로세서로 하여금 기재된 동작들을 수행하게 하는 하나 이상의 컴퓨터 판독가능한 매체 상의 컴퓨터 판독가능한 명령을 나타낸다.

이는 소프트웨어가 가치있을 수 있으며 별개로 시장성이 높은 제품일 수 있다는 것을 인정한다. 이는 원하는 기능을 수행하기 위해서 "덤브(dumb)" 또는 표준 하드웨어 상에서 구동하거나 이를 제어하는 소프트웨어를 포함한다. 또한 원하는 기능을 수행하기 위해서 실리콘 칩을 설계하거나 유니버설 프로그램가능한 칩을 구성하기 위해 사용되기 때문에, HDL(하드웨어 기술 언어) 소프트웨어와 같이 하드웨어의 구성을 "기술" 또는 정의하는 소프트웨어를 포함한다.

이러한 프로세스가 기술된 순서가 제한으로 해석되어서는 안되며, 임의의 수의 기술된 프로세스 블록이 이러한 프로세스들, 또는 대안적인 프로세스들을 구현하기 위해서 임의의 순서로 결합될 수 있다. 또한, 개별적인 블록들은 본 명세서에 기술된 청구사항의 사상 및 범주로부터 벗어나지 않고 프로세스로부터 삭제될 수 있다. 또한, 이러한 프로세스가 도 1 내지 5를 참조로 하여 전술된 모바일 디바이스(112)를 인용하여 기술되었지만, 일부 실시예에서 클라우드 기반 아키텍처를 포함하는 다른 컴퓨터 아키텍처가 이러한 프로세스의 하나 이상의 부분을 구현할 수 있다.

도 6은 상호작용 멀티-모달 이미지 검색 도구를 구현하는 예시적인 프로세서(60)를 도시한다.

블록(602)에서, 오디오 입력이 수신된다. 예를 들어, 도 1 내지 5에 도시된 바와 같이, 모바일 디바이스(112)는 마이크로폰(508)을 통해 구두 질의를 수신한다.

블록(604)에서, 구술 인식이 이용되어 오디오 입력을 텍스트로 변환한다. 도 1 내지 5를 참조로 하여 위에서 기술된 바와 같이, 구술 인식 엔진(120) 및/또는 구술 인식 모듈(524)과 같은 구술 인식(SR) 엔진 또는 모듈이 수신된 구술을 텍스트로 트랜스퍼하도록 사용될 수 있다.

블록(606)에서, 분석이 수행되어 시각적으로 표현될 수 있는 텍스트, 명사 및 명사 구절을 식별한다. 각각의 명사 또는 명사 구절이 엔티티 추출 내의 엔티티로서 추출된다. 예를 들어, 도 1 및 5에서 도시된 바와 같이, 엔티티 추출 엔진(122) 및/또는 엔티티 추출 모듈(526)과 같은 엔티티 추출 엔진 또는 모듈의 임의의 조합은, 시각적으로 표현될 수 있는 텍스트, 명사 및 명사 구절로부터 추출을 식별하도록 사용될 수 있다.

블록(608)에서, 후보 이미지가 추출된 엔티티에 대해 식별된다. 다양한 이미지 콘텐츠의 소스가 이미지 데이터베이스(128) 및 상업적 검색 엔진과 같은 이미지 데이터베이스를 포함하는 이용가능한 후보 이미지를 식별하도록 액세스도리 수 있다. 전술된 바와 같이, 예시적인 구현에서, 검색 서비스는 인터넷 검색 서비스에 의해 전형적으로 유지되는 "상위 스토리" 또는 "상위 검색"에 기초하여 현재 인기있는 이미지 콘텐츠를 식별하도록 사용될 수 있다. 적어도 하나의 구현에서, 이미지 검색 엔진으로부터의 알려진 이미지 데이터베이스 및 결과를 이용함으로써 주어진 엔티티에 대한 후보 이미지를 식별하도록 특성 및 유사성 메트릭에 기초한 클러스터링 기반 접근이 사용된다. 예를 들어, 도 1 및 5에서 도시된 바와 같이, 이미지 클러스터링 엔진(126) 및/또는 이미지 클러스터링 모듈(528)과 같은 이미지 클러스터링 엔진 또는 모듈의 임의의 조합이 엔티티에 대한 후보 이미지를 식별하도록 사용될 수 있다.

블록(610)에서, 식별된 후보 이미지는 엔티티의 의도된 의미를 가장 가깝게 나타내는 특정한 이미지의 선택을 위해 제공된다. 도 1-5를 참고하여 전술된 바와 같이, 후보 이미지는 모바일 디바이스(112) 상에서와 같은 터치 스크린 인에이블 디스플레이를 통해 제공될 수 있다. 예를 들어, 도 1 및 5에 도시된 바와 같이, 사용자 인터페이스 모듈(530) 및/또는 캔버스 모듈(532)과 같은 사용자 인터페이스 모듈의 임의의 조합은 선택을 위해 추출된 엔티티를 나타내는 후보 이미지를 제공하도록 사용될 수 있다. 적어도 하나의 구현에서, 후보 이미지는 모바일 디바이스(112) 상의 사용자 인터페이스에 대한 터치 입력을 통해 선택이 제공된다.

블록(612)에서, 각 엔티티를 나타내기 위한 후보 이미지들 중 특정한 하나의 선택이 수신된다. 다양한 실시예에서, 선택은 모바일 디바이스(112)의 사용자 인터페이스의 캔버스 영역(210)으로 드래그되는 특정한 후보 이미지를 통해 수신된다. 예를 들어, 도 1 및 5에 도시된 바와 같이, 사용자 인터페이스 모듈(530) 및/또는 캔버스 모듈(532)과 같은 사용자 인터페이스 모듈의 임의의 조합이 추출된 엔티티를 나타내는 특정한 후보 이미지의 선택을 수신하도록 사용될 수 있다. 적어도 하나의 구현에서, 후보 이미지의 선택의 지시는 모바일 디바이스(112) 상의 사용자 인터페이스에 대한 터치 입력을 통해 수신된다.

블록(614)에서, 선택된 이미지의 구체화는 사용자 인터페이스의 캔버스 영역(210)을 통해 수신된다. 다양한 실시예에서, 구체화는 합성 이미지를 형성하기 위해 캔버스 영역(210) 상에서 조작되는 선택된 이미지들에 대한 정보를 포함한다. 조작은 사이즈 조정, 위치 이동 및 서로에 대한 선택된 이미지들의 사이즈 및 위치 중 하나 또는 둘 모두의 양상들 중 하나 이상을 포함한다. 적어도 하나의 구현에서, 선택된 이미지들의 구체화의 지시는 모바일 디바이스(112) 상의 사용자 인터페이스에 대한 터치 입력을 통해 수신된다.

블록(616)에서, 합성 이미지는 컨텍스트 인식 이미지 검색에서 시각적 질의를 수행하도록 사용된다.

도 7은 연결된 히스토그램을 이용하여 기술되는 이미지들을 비교하기 위한 예시적인 프로세스(700)를 도시한다.

적어도 하나의 구현의 블록(702)에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지에 대한 각각의 키 포인트에서 128 범위 SIFT 기술어와 같은 기술어를 추출한다. 예를 들어, 이미지는 이미지 데이터베이스(128)로부터의 이미지, 웹 검색으로부터 획득된 이미지, 및/또는 합성 시각적 질의 이미지 중 하나 이상을 포함할 수 있다. 일부 경우에서, 추출은 예를 들어 이미지 데이터베이스(128)로부터의 각 이미지에 e대해 오프라인에서 사전에 발생한다. 다른 경우에서, 예를 들어 웹 검색으로부터 획득된 이미지 및 합성 시각적 질의 이미지에 대해서, 추출은 실질적으로 실시간으로 인라인에서 발생한다. 이러한 온라인 및 오프라인 추출 접근은 복수의 소스로부터 후보 이미지를 식별하도록 결합될 수 있다. 예를 들어, 후보 이미지가 적어도 하나의 구현에서 잠재적인 후보 이미지들의 태그의 텍스트 검색에 기초한 엔티티에 대해 식별되었을 때, 식별된 후보 이미지로부터의 SIFT, 색상, 및/또는 경사도와 같은 특성 기술어가 추가적인 후보 이미지를 식별하도록 태그 없이 또는 다른 태그들과 함께 잠재적 후보 이미지의 다른 이미지들에 매칭될 수 있다.

예시적인 구현에서, 명사가 구체적인 시각적 표현을 갖는지 여부에 대한 판정은, 규칙적으로 업데이트되는 이미지 데이터베이스(128) 내의 이미지들의 임의의 태그 내에 명사가 포함되는지 여부에 기초한다.

블록(704)에서, 상호작용 멀티-모달 이미지 검색 도구는 계층적 K-수단에 의해 식별된 엔티티들의 어휘 나무를 구성한다. 예를 들어, 상호작용 멀티-모달 이미지 검색 도구는 계층적 K-수단에 의해 확립된 어휘 나무를 이용하여 시각적 코드 책을 구성한다. 다른 예시에서, 시각적 코드 책은 KD-나무에 의해 대체될 수 있으며, 또는 다른 기술이 사용될 수도 있다. 일 예시적인 구현에서, 이것은 이미지 데이터베이스(128)로부터 각각의 이미지에 대한 것과 같은 이미지 데이터베이스로부터의 약 6000개의 시각적 단어를 산출한다. 다양한 예시에서, 어휘 나무의 잎들은 시각적 단어들로 여겨질 수 있으며, 이미지 내의 로컬 포인트는 이미지와 가장 유사한 잎들을 찾기 위해 어휘 나무의 잎들에 매칭될 수 있다.

블록(706)에서, 상호작용 멀티-모달 이미지 검색 도구는 나무를 통과시킴으로써 각각의 SIFT 기술어를 시각적 단어로 해싱한다.

블록(708)에서, 상호작용 멀티-모달 이미지 검색 도구는 시각적 단어를 가중함으로써 이미지를 기술한다. 예를 들어, 일 구현에서, 상호작용 멀티-모달 이미지 검색 도구는, 이미지의 중심으로부터 각각의 이미지 패치의 상대적인 거리에 기초하여 시각적 단어에 가중을 두며, 중심으로부터 더 멀리 있는 것보다 중심에 더 가까운 이미지 패치에 보다 높은 가중을 둔다. 다른 예시로서, 적어도 하나의 구현에서, 상호작용 멀티-모달 이미지 검색 도구는 각각의 이미지 패치의 상대적인 크기에 기초하여 시각적 단어를 가중하고, 이때 더 큰 이미지 패치에 더 높은 가중을 둔다.

블록(710)에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지로부터의 색상을 정량화한다. 예를 들어, 일 예시적인 구현에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지를 기술하기 위해서 이미지로부터의 색상을 192개의 색조(hue) 내의 빈(bin), 포화 및 값(HSV)으로 정량화한다.

블록(712)에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지로부터의 경사를 정량화한다. 예를 들어, 상호작용 멀티-모달 이미지 검색 도구는 이미지로부터의 경사를 8개의 방향과 8개의 세기로 정량화하여, 이미지를 기술하기 위해 64-범위 경사 히스토그램을 산출한다.

블록(714)에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지를 기술하도록 미래의 기술어를 결합한다. 다양한 구현에서, 특성 기술어는 선형 퓨전, 연결, 또는 다른 형태의 결합을 통해 결합될 수 있다. 따라서, 예시적인 구현에 있어서, 그 결과 도구는 예를 들어 (6256=6000 시각적 단어 + 192 컬러 빈 + 64 범위 경사 히스토그램)과 같은 세 가지 유형의 시각적 특성의 연결된 히스토그램에 의해 이미지를 기술한다. 이러한 세 가지 유형의 시각적 특성을 이용하는 것은 이미지 검색에 효율적인 것으로 증명되었다. 적어도 하나의 구현에서, 각 종류의 특성이 결합되기 전에 개별적으로 정규화된다. 상호작용 멀티-모달 이미지 검색 도구는 또한 일부 구현에서 히스토그램 내의 정보성 요소를 마이닝하고(mine) 서로 다른 유형의 기술어를 균형화하기 위해서 가중 기능을 사용한다.

블록(716)에서, 상호작용 멀티-모달 이미지 검색 도구는 히스토그램의 유사성을 잠재적인 후보 이미지에 대해 비교하기 위해 유사성 메트릭을 이용한다. 예를 들어, f_i 및 f_j가 각각 이미지 i와 j의 정규화된 히스토그램을 표기하도록 한다. 이러한 두 이미지 사이의 유사성은 수식 1에 의해 표현된 바와 같은 두 개의 히스토그램 사이의 가중된 교차 커널에 의해 주어진다.

수식 1에서, f_i _,n은 히스토그램 의 n번째 요소를 나타내고, w_n는 n번째 요소에 대한 유사성으로부터 기여도를 측정하기 위한 가중치이며, N(예를 들어, N=6256)은 히스토그램의 범위이다. 히스토그램 내의 모든 요소들이 이미지들의 비교에 동일하게 중요한 것은 아니기 때문에, 가중은 서로 다른 특성으로부터의 기여를 차별화한다. 상호작용 멀티-모달 이미지 검색 도구는 이미지들에 걸친 특성을 평균화하여 평균 히스토그램

을 획득하며, 그 다음 가중치 w_n을

로서 정의한다. 요소가 전체 이미지들에 걸쳐 자주 등장할수록, 요소의 중요성은 낮아진다. 따라서, 이러한 가중 기능은 히스토그램 내의 정보성 요소를 마이닝하고 서로 다른 유형의 기술어들을 균형화할 수 있다.

도 8은 각각의 엔티티에 대한 후보 이미지를 식별하기 위해서 상호작용 멀티-모달 이미지 검색 도구에 의해 사용되는 클러스터링-기반 접근법의 예시적인 프로세스(800)를 도시한다. 일부 구현에서, 프로세스(800)는 도 6의 블록(608)에 따라 추출된 엔티티에 대해 식별된 후보 이미지를 나타낸다.

블록(802)에서, 상호작용 멀티-모달 이미지 검색 도구는 엔티티 키워드에 따라서 이미지 데이터베이스 및 상업적인 이미지 검색 엔진으로부터의 사전결정된 개수의 상위 이미지들(예를 들어, 1000개)로부터 잠재적인 후보 이미지를 선택한다.

블록(804)에서, 상호작용 멀티-모달 이미지 검색 도구는 수식 1에 의해 도시되고 앞선 문단에서 기술된 시각적 기술어와 유사성 메트릭에 기초하여 이미지들의 쌍을 비교함으로써 유사성 매트릭스를 계산한다.

블록(806)에서, 일부 구현에서 배경의 어수선함을 방지하기 위해, 상호작용 멀티-모달 이미지 검색 도구는 특성 추출에 앞서 핵심적인 영역 검출 프로세스를 수행한다. 예를 들어, 객체가 쉽게 인식되지 않게 객체를 포함하는 이미지가 어수선한 경우에, 상호작용 멀티-모달 이미지 검색 도구는 이미지를 어수선하게 하는 추가적인 배경 구성요소 없이 객체를 반영하는 이미지 구성요소를 획득하도록 핵심 영역 검출 프로세스를 사용할 수 있다.

블록(808)에서, 상호작용 멀티-모달 이미지 검색 도구는 이미지로부터 특성들을 추출한다. 적어도 하나의 실시예에서, 배경의 어수선함을 방지하기 위해서, 오직 핵심 영역 내의 시각적 기술어만이 고려된다.

블록(810)에서, 다양한 실시예에서 상호작용 멀티-모달 이미지 검색 도구는 특성들을 다수의 종류로 그룹화하는 자율식 클러스터링 방법을 사용한다. 예를 들어, 관련성 전파(AP; affinity propagation) 알고리즘은 종류별로 그룹화하기 위한 특성들의 시각적 사례를 찾기 위해서 사용되는 자율식 클러스터링 방법이다.

블록(812)에서, 상호작용 멀티-모달 이미지 검색 도구는 각 클러스터 내에 포함된 이미지들의 수에 따라서 내림차순으로 클러스터를 분류한다. 예를 들어, 100개보다 적은 이미지를 갖는 클러스터는 100개보다 많은 이미지를 갖는 클러스터보다 낮게 랭크될 수 있다.

블록(814)에서, 상호작용 멀티-모달 이미지 검색 도구는 이러한 엔티티에 대한 후보 이미지로서 상위 클러스터(예로서, 상위 10개)로부터의 사전결정된 수의 이미지의 중심을 선택한다. 예를 들어, 서로 다른 대상을 나타내는 잠재적인 후보 이미지는 엔티티와 일치하는 태그를 가질 수 있다. 잠재적인 후보 이미지가 소정의 태그를 검색함으로써 수집될 수 있는 반면, 상호작용 멀티-모달 이미지 검색 도구는 이미지 내에 제시된 서로 다른 대상들의 대표적인 이미지를 식별하기 위해서 잠재적인 후보 이미지들을 그들의 모습에 따라 그룹들로 클러스터링할 수 있다. 상호작용 멀티-모달 이미지 검색 도구는, 예를 들어 가장 많은 수의 이미지를 갖는 그룹이 가장 먼저 랭크되도록 각각의 그룹 내의 이미지들의 개수에 따라 그룹들을 랭크할 수 있다. 또한 일부 경우에서, 상호작용 멀티-모달 이미지 검색 도구는 가장 대표적인 것으로 간주되는, 예를 들어 상위 10개 또는 상위 5개와 같이 사전결정된 수의 그룹들을 보유한다. 일부 경우에서, 보유된 그룹들의 수는 사용자가 설정가능하다.

블록(814)에서, 보유된 그룹들에 대해 상호작용 멀티-모달 이미지 검색 도구가 각 클러스터로부터 하나의 이미지씩, 각 그룹의 클러스터 중심을 대표적인 후보 이미지로서 선택한다. 따라서, 예를 들어 엔티티에 상응하는 태그를 가진 서로 다른 10개의 대상을 나타내는 10개의 그룹 각각으로부터의 대표적인 이미지가, 이미지가 합성 시각적 질의의 일부가 되도록 선택될 수 있는 10개의 후보 이미지로서 제시될 수 있다.

블록(816)에서, 상호작용 멀티-모달 이미지 검색 도구는 기술어에 가중을 둔다. 예를 들어, 가우시안 윈도우는 기술어에 가중을 두고 중심에 가까운 기술어에 가중을 둔다.

도 9는 (900)에서, 컨텍스트 인식 합성 이미지 기반 이미지 검색 프로세스의 수학적으로 주석이 달린 뷰를 도시한다. 이 프로세스는 단계(902)에서와 같이 합성 시각적 질의 C로 시작하며, 이는 두 개의 이미지 패치를 포함한다.

단계(904)에서, 상호작용 멀티-모달 이미지 검색 도구는 예를 들어 도 4와 관련하여 논의된 바와 같은 엔티티 키워드

를 나타내는 저장된 태그를 결합함으로써 생성한다. 다른 예시로서, 텍스트 질의는 도시명이 태그 내에 포함되지 않았을 때 위치 카테고리로부터 도시명과 같이 태그와 다른 카테고리로부터의 텍스트를 포함하도록 생성될 수 있다. 생성된 텍스트 질의는 이미지 검색 모듈(538) 및/또는 이미지 검색 엔진(906)을 포함하는 도 5 및 9에 도시된 것과 같은 이미지 검색 모듈 또는 엔진들의 임의의 조합에 대해 제출된다.

단계(908)에서, 이미지 검색 엔진(906)은 텍스트 질의에 따라 이미지 데이터베이스(128)와 같은 이미지 데이터베이스로부터 관련된 이미지를 검색한다. 일부 경우에서, 검색 결과의 수를 감소시키도록 이용가능할 때, GPS 정보, 위치 카테고리 및/또는 도시명을 포함할 수 있는 위치에 따라 관련 이미지가 필터링된다. 검색 결과(910)는 후보 이미지이다. 후보 이미지(910)는 합성 시각적 질의(902)에 의해 표현되고 텍스트 질의(904)로부터 추출된 엔티티로부터의 후보 이미지를 나타낸다. 후보 이미지(910)는 합성 시각적 질의(902)에 타겟 이미지로서 각각이 비교될 수 있는 텍스트 기반 이미지 검색 결과이다.

단계(912)에서, 상호작용 멀티-모달 이미지 검색 도구는 합성 시각적 질의의 각각의 이미지 패치 구성요소와 타겟 이미지 J(924) 내의 상응하는 영역 사이의 시각적 유사성

을 계산한다.

동작(912)과 관련하여, 합성 시각적 질의(902) 내의 이미지 패치 구성요소와 타겟 이미지 J(924) 내의 상응하는 영역 사이의 영역 기반 시각적 유사성

을 계산하기 위해서, 상호작용 멀티-모달 이미지 검색 도구는 J(924) 내의 상응하는 영역의 시각적 표현을 획득한다. J(924) 내의 특정한 영역의 시각적 표현을 계산하기 위해 항상 실용적이지 않기 때문에, 상호작용 멀티-모달 이미지 검색 도구는 효율적인 격자 기반 검색 방안을 이용하여 타겟 이미지 J가 작은 격자

로 분할한다. 이때 M은 타겟 이미지 J가 분할될 정수 개수의 셀을 나타내며, i,j는 각 셀에 대한 코너 포인트의 좌표를 나타낸다.

(합성 질의 내의 영역

에 상응하는) k번째 이미지 패치 구성요소 및 J 내의 격자(i,j)에 상응하는 그의 중심 위치에 있어서, J 내의 상응하는 영역

이 연관된 격자의 각각의 연합, 즉

에 의해 주어진다. 각 격자에서, 상호작용 멀티-모달 이미지 검색 도구는 전술된 SIFT, 컬러 히스토그램 및 경사 히스토그램을 포함하는 세 가지 유형의 시각적 특성을 이용하는 접근법을 사용하여 특성 히스토그램을 획득한다. 예시적인 구현에서, 획득된 특성 히스토그램이 사전에 세이브된다. 상호작용 멀티-모달 이미지 검색 도구는 J를

로서 나타낼 수 있으며, 이때

는 격자(i,j)에 대한 시각적 기술어이다. M=9(9×9 격자)는 하나의 예시적인 구현에서 사용된다. 상호작용 멀티-모달 이미지 검색 도구는 식 2에 의해 나타내어지는 바와 같이 관련된 격자로부터 히스토그램의 선형 퓨전을 이용하여 영역

의 시각적 표현을 획득한다.

식 2에서,

는 중심에 가까운 격자에 보다 높은 중요성을 부여하는 주어진 영역에서 중심화된 2D 분포 가중이다. 그 다음, k번째 이미지 패치 구성요소와 영역

사이의 영역 기반 시각적 유사성이 식 3에 의해 주어진다.

식 3에서,

는 k번째 이미지 패치 구성요소의 시각적 기술어인 한편, 심(sim)

이 수식(1)에서 주어진다. 위의 수식에서, 상호작용 멀티-모달 이미지 검색 도구가 (i,j) 및 k의 인덱스를 모두 사용한다는 것을 인지하여라. 이는 상호작용 멀티-모달 이미지 검색 도구가 위치의 오차와 협상하기 위해 영역 기반 유사성을 계산하도록 슬라이딩 윈도우를 사용할 것이기 때문이다. 따라서,

는 k번째 이미지 패치 구성요소와 타겟 이미지 J 내의 (i,j)에서의 중심화된 상응하는 영역 사이의 시각적 유사성을 나타낸다.

단계(914)d에서, 상호작용 멀티-모달 이미지 검색 도구는 합성 시각적 질의(902)로부터의 각각의 이미지 패치 구성요소의 범위를 타겟 이미지 J 상에 겹쳐 놓는다.

단계(916)에서, 이미지 패치 구성요소

로부터 양방향 화살표에 의해 도시된 바와 같이, 상호작용 멀티-모달 이미지 검색 도구는 입력 부정확성을 고려하기 위해서 패치의 영역을 타겟 이미지 J 상의 더 큰 크기로 확장한다.

단계((918)에서, 상호작용 멀티-모달 이미지 검색 도구는 (920)에서 도시된 바와 같은 의도 맵

을 생성한다. 의도 맵(920)은 캔버스 영역(210)과 같은 캔버스 상에서 구체화된 것과 같은 합성 시각적 질의(902) 내의 이미지 패치 구성요소의 위치에 따라 생성된다. 예를 들어, 다양한 실시예에서 구체화는 도 6의 블록(614)과 관련하여 전술된 바와 같이 하나 이상의 선택된 이미지의 위치 및/또는 크기를 변경할 수 있다.

동작(918)과 관련하여, 이미지 패치 구성요소

와 상응하는 영역

사이의 영역 기반 관련성의 계산은 의도를 고려해야만 한다. 이러한 영역 기반 의도 관련성은 관련성

로서 표기될 수 있다. 직관적으로, 각 영역

의 중심에 가까운 의도가 중심으로부터 더 멀리 있는 의도보다 강하다. 또한, 이미지 패치 구성요소

내의 의도가 그 밖에 있는 의도보다 더 강하다. 상호작용 멀티-모달 이미지 검색 도구는 합성 시각적 질의 내의 의도의 소프트 측정(soft measurement)인 의도 맵을 먼저 정의한다.

가 합성 시각적 질의 내의 k번째 이미지 패치의 중심을 표시한다. 사용자에 의해 명시된 바와 같은 이러한 위치의 불확실성을 용인하기 위해서, 상호작용 멀티-모달 이미지 검색 도구는 수식 4에 의해 나타내어지는 바와 같은 의도를 표현하기 위해 소프트 맵을 계산한다.

식 4에서,

및

는 각각 영역

의 폭과 높이이며, θ는 영역

의 경계에서 g가 0.5로 디그레이드되게 하도록 (8ln2)^-1/2와 같은 상수로 설정된다. 다른 값들이 사용될 수도 있다.

동작(922)과 관련하여, 상호작용 멀티-모달 이미지 검색 도구는

의 안팎에서 격자에 대한 의도 견지성을 결정한다. 격자 (i,j)에서의 k번째 구성요소의 면에서의 의도 견지성은 수식 5에 의해 주어진다.

이것은

내의 격자들에 주로 초점을 맞추기 때문에 포지티브 관련성으로 불린다. 상호작용 멀티-모달 이미지 검색 도구는 또한 (예를 들어 지시된 영역 밖의) 원치 않는 위치에 존재하는 엔티티에 패널티를 부과하는 방안을 사용한다. 상호작용 멀티-모달 이미지 검색 도구는 패널티 스코어와 영역 밖의 각 격자의 관련성을 나타낸다. 패널티 스코어는 수식 6에 의해 획득될 수 있다.

이것은

밖의 격자들에 패널티를 부과하기 때문에 네거티브 관련성으로 불린다. 이는 합성 질의 캔버스 상의 선택된 이미지의 구체화 및 배치로부터 의도의 지시 내의 부정확성을 허용한다(예를 들어, 선택된 이미지가 정확한 위치보다 대략적인 위치에 위치될 수 있고, 잘 리사이징되지 않았을 수 있다). 따라서, 상호작용 멀티-모달 이미지 검색 도구는 각각의 이미지 패치 구성요소의 크기 및 위치에 대한 오차를 유지한다.

단계(922)에서, 상호작용 멀티-모달 이미지 검색 도구는 합성 질의 이미지 내의 각각의 이미지 패치 구성요소에 해당하는 타겟 이미지 J(924) 내의 이미지 패치에 대해 생성된 의도 맵과 시각적 유사성 모두를 고려함으로써 각각의 이미지 패치 구성요소에 대한 포지티브 관련성

및 네거티브 관련성

을 계산한다.

단계(926)에서, 상호작용 멀티-모달 이미지 검색 도구는, (928)에서 도시된 바와 같이 (슬라이딩 윈도우를 이용하여) 타겟 이미지 J(924) 내의 주변 격자를 고려함으로써 각각의 이미지 패치 구성요소에 대해 결합된 관련성

을 계산한다.

동작(926)과 관련하여, 오차 문제를 처리하기 위해, 상호작용 멀티-모달 이미지 검색 도구는 크기가 슬라이딩 윈도우를 사용하며, 이에 대한 크기는

와 동일하고

내의 모든 격자(i,j)에서 중심화된 이러한 윈도우를 배치한다. 다시 말하면, 오리지널 이미지 패치 구성요소는 일부 위치 오차를 도입하기 위해 이러한 슬라이딩 윈도우 상에 재위치된다. 상호작용 멀티-모달 검색 도구는 도 9에 도시된 이러한 슬라이딩 윈도우들 중 최고의 매치를 항상 검색한다. 그 결과, k번째 이미지 패치 구성요소와

사이의 "포지티브 관련성"과 "네거티브 관련성"이 수식 7에 의해 계산된다.

k번째 이미지 패치 구성요소와

사이의 결합된 관련성이 수식 8에 의해 주어진다.

단계(930)에서, 상호작용 멀티-모달 이미지 검색 도구는 합성 시각적 질의 C(902)와 타겟 이미지 J(924) 사이의 전체 관련성

를 계산한다. 이러한 방식으로, 상호작용 멀티-모달 이미지 검색 도구는 전체 관련성 스코어에 따라서 (908)에서 반환된 이미지를 랭크할 수 있다.

동작(930)과 관련하여, 상호작용 멀티-모달 이미지 검색 도구가 각각의 영역 기반 관련성

을 획득한 후에, 상호작용 멀티-모달 이미지 검색 도구는 C와 J 모두의 이미지 패치 구성요소 전부에 걸친 시각적 기술어의 연결을 비교함으로써 C와 J 사이의 전체적인 관련성을 계산한다. 서로 다른 이미지 패치 구성요소의 분산을 고려하기 위해서, 전체적인 관련성은 수식 9에서 도시된 바와 같은 각 영역 기반 관련성의 분산과 평균 모두에 민감한 혼합 함수에 의해 주어진다.

수식 9에서,

는 평균 관련성이고,

는 패널티 부과의 정도를 제어하는 포지티브 파라미터이다. 이러한 패널티는 영역의 일부에 더 가까운 타겟 이미지가 존재하지 않을 때 또는 일부 영역이 잘 매치되는 반면 일부는 잘 매치되지 않을 때 사용될 수 있다. 따라서, 일부 구현에서, 부과된 패널티의 정보는 다양한 영역의 관련성 매칭에 대해 알아낸 불일치의 정도에 적어도 부분적으로 기초한다. 적어도 하나의 구현에서, 패널티의 정보는 경험적으로 0.8에 설정된다.

결론

인터넷 및 월드와이드웹에 대한 액세스를 갖는 모바일 디바이스가 점차 흔해지고 있으며, 끊임없이 활동하는 동안 증가하는 데이터량에 대한 액세스를 사용자에게 제공하는 인터넷 서핑 컨시어지로서의 역할을 한다. 모바일 디바이스에 의해 이용가능한 멀티-모달 상호작용을 레버리징함으로써, 상호작용 멀티-모달 이미지 검색 도구가 현존하는 질의 이미지의 필요없이 효율적으로 시각적 검색을 수행할 수 있다.

본 발명의 상호작용 멀티-모달 시각적 검색 시스템이 구조적 특성 및/또는 방법론적 동작들에 대해 특정적인 언어로 기술되었지만, 첨부된 특허청구범위에서 정의된 특성 및 동작들이 기술된 특정한 특성 또는 동작들로 반드시 제한되는 것은 아님을 이해해야 한다. 오히려, 특정한 특성 및 동작들이 특허청구범위를 구현하는 예시적인 형태로서 개시된다.

Claims

컴퓨팅 디바이스(112)를 통해 질의 입력(query input)(204)을 수신하는 단계와,
상기 질의 입력에 기초해 이미지들의 후보 세트(208)를 생성하는 단계와,
상기 이미지들의 후보 세트(208)로부터의 하나 이상의 이미지의 선택을 수신하는 단계(612)와,
상기 이미지들의 후보 세트(208)로부터의 상기 하나 이상의 이미지를 포함하는 합성 이미지(composite image)(414)의 합성을 가능하게 하는 단계- 상기 합성을 가능하게 하는 단계는 상기 컴퓨팅 디바이스(112)의 사용자 인터페이스를 통해 캔버스(210) 상의 상기 하나 이상의 이미지의 배치에 대한 지시(indication)를 수신하는 것을 포함함 -와,
상기 합성 이미지(414)를 질의 이미지로서 이용하여 시각적 검색(visual search)을 수행하는 단계를 포함하는
방법.
제 1 항에 있어서,
상기 이미지들의 후보 세트는 적어도 상기 질의 입력으로부터 추출된 엔티티(entity)에 기초하여 생성되는
방법.
제 1 항에 있어서,
상기 배치에 대한 상기 지시는,
상기 캔버스 상의 상기 하나 이상의 이미지의 배치 위치, 또는
상기 캔버스 상의 상기 하나 이상의 이미지 중 적어도 두 이미지의 상대적인 배치 위치를 포함하는
방법.
제 1 항에 있어서,
상기 합성 이미지의 상기 합성은 상기 캔버스 상의 상기 하나 이상의 이미지의 크기에 대한 지시를 수신하는 것을 포함하되,
상기 크기에 대한 상기 지시는,
상기 캔버스 상의 상기 하나 이상의 이미지의 크기 수정, 또는
상기 캔버스 상의 상기 하나 이상의 이미지 중 적어도 두 이미지의 상대적인 크기를 포함하는
방법.
제 1 항에 있어서,
상기 질의 입력은 오디오 입력을 포함하는
방법.
제 1 항에 있어서,
상기 컴퓨팅 디바이스는 모바일 디바이스를 포함하는
방법.
제 1 항에 있어서,
상기 사용자 인터페이스는 터치 인터페이스를 포함하는
방법.
청구항 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
메모리 내에 상기 합성 이미지를 기록하는 단계를 더 포함하는
방법.
프로세서 및 메모리를 포함하는 시스템으로서,
상기 시스템은 청구항 제 1 항 내지 제 7 항 중 어느 한 항에 기재된 동작을 수행하도록 구성되는
시스템.
인코딩된 컴퓨터 실행가능한 명령을 구비하는 컴퓨터 판독가능한 저장 매체로서,
상기 컴퓨터 실행가능한 명령이 실행되면, 청구항 제 1 항 내지 제 7 항 중 어느 한 항에 기재된 동작을 수행하도록 디바이스를 프로그래밍하는
컴퓨터 판독가능한 저장 매체.