KR102254768B1

KR102254768B1 - 씬 그래프 생성장치

Info

Publication number: KR102254768B1
Application number: KR1020200109333A
Authority: KR
Inventors: 우상민; 김강일
Original assignee: 광주과학기술원
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2021-05-24

Abstract

본 발명에 따른 씬 그래프 생성장치에는, 상호 관련성이 낮은 노드쌍을 가지치기 하는 절단부; 주체와 객체와 배경에 대하여 개별적인 특징 풀(feature pool)을 제공하는 스플릿부; 및 노드쌍을 서로 연관시켜 씬 그래프를 제공하는 인터랙트부가 포함된다.

Description

씬 그래프 생성장치{Scene Graph Generation apparatus}

본 발명은 씬그래프 생성장치에 대한 것이다.

종래 씬 그래프 생성장치로는 US9342991호, 'Systems and methods for generating a high-level visual vocabulary'가 제안된 바가 있다.

상기 종래기술은, 이미지 정보를 이용하여 시각적 단어(visual word)를 벡터 공간에 매핑한다. 상기 매핑과정에서 시각적 단어 간의 관계(relationship)를 유추하고, 이를 그래프 형태로 모델링하는 기술을 개시한다.

US9342991호, 'Systems and methods for generating a high-level visual vocabulary'

상기 종래기술은 장면내의 객체 간의 관계를 고려하지 않는 문제점이 있다.

본 발명에 따르면, 장면에 있는 주체, 객체, 및 그 관계를 정확히 파악하여 성능이 높은 씬 그래프를 제공할 수 있다.

도 1은 실시예의 씬 그래프 생성장치의 동작 및 작용을 설명하는 도면이다.
도 2와 도 3을 참조하면, a는 장면이고, b는 베이스라인의 씬 그래프이고, c는 실시예의 씬 그래프의 비교도면.
도 4는 다양한 씬 그래프 생성장치와의 비교도면.

씬 그래프를 생성하는 것은, 장면의 노드와, 상기 노드 들의 관계를 가지는 각 장면을 그래프로 표현하는 것을 말한다. 예를 들어, 사람이 반려견에게 먹이를 주는 장면은, 사람과 반려견이 객체(object)로서 각각의 노드(node)로 정의할 수 있다. 상기 사람이 반려견에게 먹이는 주는 것은 객체간의 관계(relationship)로서, 에지(edge)로 정의할 수 있다. 여기서, 노드와 에지는 씬 그래프에서 사용하는 개념일 수 있다. 이하에서 노드라고 말하는 경우에는 객체를 지칭할 수 있고, 에지라고 말하는 경우에는 객체간의 관계를 지칭할 수 있다.

종래 씬 그래프를 생성하는 장치는 다음과 같은 문제점이 있다.

첫째, 에지가 희소한 것을 반영하지 못하였다. 예를 들어, 각 이미지는 평균적으로 6개의 에지를 가짐에도 불구하고, 각 노드 들의 관계를 지나치게 많이 상정하여 씬 그래프를 생성하였다.

둘째, 각 장면은, 상기 에지들을 기술하기 위하여, 인터글래스 시각분산(inter-class visual variance)는 낮고, 인트라클래스 시각분산(intra-class visual variance)는 높은 문제점이 있다.

셋째, 주제와 객체가 뒤바뀌어도 공통의 특징을 추출하기 때문에 에지의 방향성을 학습하기가 어렵다. 예를 들어, 각 장면에서 노드는 비대칭관계가 절대 다수를 차지할 수 있다.

넷째, 문맥추출(contextual reasoning)은 에지를 예측하는 어려움을 해결하는데 있어서 중요하지만, 그 정보를 고려하지 못하였다.

본 발명은 상기되는 배경하에서 제안되는 것으로서, 씬 그래프를 생성하는 장치를 제안한다. 상기 장치에는 위 각 문제점을 해결하기 위하여 개별적인 구성을 가지고 있다. 상기 개별적인 구성으로서, 본 발명은 위 첫째문제를 해결하는 절단부(cut)(1)를 포함한다. 본 발명은 위 둘째문제를 해결하는 스플릿부(split)(2)를 포함한다. 본 발명은 위 셋째 및 넷째 문제를 해결하는 인터랙트부(interact)(3)를 포함할 수 있다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에 포함되는 다른 실시예를 구성요소의 부가, 변경, 삭제, 및 추가 등에 의해서 용이하게 제안할 수 있을 것이나, 이 또한 본 발명 사상의 범위 내에 포함된다고 할 것이다.

도 1은 실시예의 씬 그래프 생성장치의 동작 및 작용을 설명하는 도면이다.

도 1을 참조하면, 상기 절단부(1)는 상호 관련이 없거나 작은 노드쌍을 가지치기 한다. 가지치기를 하기 위하여 노드쌍들에 대한 점수를 매긴다. 먼저 하기 수학식 1과 같이 스코어를 매긴다.

상기 스코어는 노드쌍의 점수를 의미한다. 상기 파이는 주체(subject)에 대한 투사함수이고, 상기 프사이는 객체(object)에 대한 투사함수이다. 여기서, 투사함수는 예를 들어, 2-layer MLPs를 사용할 수 있다.

여기서, c는 의미론적 정보(semantic)를 의미할 수 있다.

실시예는 씬에서, n개의 노드를 고려할 수 있다. 상기 스코어를 더 정확하게 산출하기 위하여, 바운딩박스(b)와 시각적특징(f^ROI)을 더 반영할 수 있다. 상기 바운딩박스는 노드에 대응하여 제공할 수 있다. 상기 시각적특징은 시각적 특징정보를 반영할 수 있다.

위 의미론적정보(semantic information), 바운딩박스를 이용하는 공간적정보(spatial information), 및 시각적특징을 반영하는 시각적정보(visual information)를 모두 반영하여 상기 수학식 1을 다시 정리할 수 있다.

여기서 avgpool은 글로벌 평균 풀링 오퍼레이션(global average pooling operation)을 의미할 수 있다. 여기서 쉼표는 연결연산을 의미할 수 있다. 여기서, 파이와 프사이의 임베딩함수는

로 세팅할 수 있다.

상기 스코어 함수의 구체적인 동작은 [Yang, J., J. Lu, S. Lee, et al. Graph R-CNN for Scene Graph Generation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 670-685. 2018.]를 이용할 수 있다.

상기 바운딩박스의 적용은 [Ren, S., K. He, R. Girshick, et al. Faster R-CNN: Towards Real-Time Object Detection With Region Proposal Networks. In Advances in Neural Information Processing Systems (NeurIPS), pages 91-99. 2015.]를 이용할 수 있다.

상기 시각적특징은 [He, K., G. Gkioxari, P. Doll, et al. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (CVPR), pages 2961-2969. 2017.]를 이용할 수 있다.

상기 수학식 2를 통하여 스코어를 구하고, 대상이 되는 노드쌍들을 취할 수 있다. 대상이 되는 노드쌍의 수(M)은 원래의 수(N²)에 비하여 극도로 적어질 수 있다. 결국, 인접하는 노드만이 추출될 수 있다. 인접하는 노드는 연결성이 높은 노드쌍을 의미할 수 있다.

상기 절단부(1)를 통하여 대상이 되는 노드쌍의 개수를 M개로 선정한 다음에는, 상기 스플릿부(2)에서 스플릿동작을 수행할 수 있다.

이후에는, 상기 노드쌍은 주체(subject)-객체(object)의 쌍을 의미할 수 있다.

상기 스플릿부(2)는 공통특징에 대하여 어텐셔널 마스킹(attention masking)을 수행할 수 있다.

상기 어텐셔널 마스킹은 수학식 3으로 구현할 수 있다.

여기서, z는 중간 마스킹 특징을 나타내고, x는 최종 특징을 나타고, s는 subject를 의미하고, o는 object를 의미하고, bg는 background를 의미하고, MASK는 마스킹동작을 의미하고, m은 마스크를 의미하고, coord는 정규화된 절대좌표로서 14*14 그리드를 예시할 수 있고, ATT는 어텐셔널 함수를 나타낸다.

위 스플릿부(2)의 동작에 의해서, 주체, 객체, 및 배경에 대한 개별적인 특징 풀을 제공할 수 있다.

이후에는 인터랙트부(3)를 이용하여 에지를 구한다. 상기 인터랙트부는 바텀 인터랙트부(31)와 업인터랙트부(32)를 포함한다.

상기 바텀 인터랙트부는 하기 수학식 4와 같이 동작할 수 있다.

여기서, 알파와 베타는 임베드된 함수로서,

이다. 상기 알파와 베타는 2-layer MLPs이고, 에지특징을 제공할 수 있다. 여기서, X는 특징집합을 의미하고, pred는 에지, 즉 노드쌍의 관계, 또는 술부(predicate)인 것을 의미하고, f는 특징을 의미한다.

따라서, s가 o의 앞에 있는 것을 제한조건으로 하여 bg는 각각 다른 위치에 놓일 수 있다.

상기 수학식 4에 따르면, 주체가 객체에 비하여 선행하는 조건으로 특징 집합을 얻을 수 있다. 상기 집합은 노드쌍과 에지의 개별단위로서, 씬 그래프를 작성하는 개별단위가 될 수 있다.

상기 집합들은 업 인터랙트부(32)의 고차원 관계추론을 통하여 씬 그래프를 완성할 수 있다.

수학식 5와 6에 의해서 그래프 컨벌루션 동작을 수행할 수 있다.

여기서, W는 그래프 컨벌루션 층들을 위한 웨이트이고,

는 안접 메트릭스로서, 상기 절단부(1)에서 얻어지는 노드 간의 인접도를 나타내는 매트릭스이고, e는 노드를 의미하고, p는 에지를 의미할 수 있다. 따라서, A_p-e는 에지로부터 노드로 가는 인접 매트릭스를 의미한다. V⁽⁰⁾는 초기 특징 매트릭스로서, 노드와 에지가 배열할 수 있다. 상기 특징 매트릭스는 노드의 특징과 에지의 특징의 열방향 컨케터네이션일 수 있다. 상기 노드의 특징은 수학식 7로 주어질 수 있다.

상기 소문자 파이는 이미지에 있는 세가지 요소의 혼합하기 위하여 임베드된 함수이다.

수학식 5 내지 7의 결과 도출되는 특징 메트릭스에서 상위에 놓이는 N개의 열을 선정하여 씬 그래프를 생성할 수 있다.

상기 그래프 컨벌루션의 구체적인 방법은 Kipf, T. N., M. Welling. Semi-Supervised Classification With Graph Convolutional Networks. arXiv preprint arXiv:1609.02907, 2016.를 적용할 수 있다.

상기 과정을 통하여 씬 그래프를 제작할 수 있다.

본 실시예로 생성된 씬 그래프와, 절단부/스플릿부/인터랙트부가 없는 baseline를 비교하였다.

도 2와 도 3을 참조하면, a는 장면이고, b는 베이스라인의 씬 그래프이고, c는 실시예의 씬 그래프이다. 실시예가 더 다양하고 정확한 씬 그래프의 제작이 가능한 것을 볼 수 있다.

도 4를 참조하면, 다양한 씬 그래프 생성장치와 비교할 때, 본 발명의 성능이 우수한 것을 확인할 수 있다.

본 발명에 따르면, 씬 그래프를 더 정확하게 제공할 수 있다.

Claims

노드쌍들에 대한 스코어를 매기고, 상호 관련성이 낮은 노드쌍을 가지치기 하여 인접하는 노드쌍을 추출하는 절단부;
주체와 객체와 배경에 대하여 개별적인 특징 풀(feature pool)을 제공하는 스플릿부; 및
상기 인접하는 노드쌍을 서로 연관시켜 씬 그래프를 제공하는 인터랙트부가 포함되고,
상기 인터랙트부에는, 상기 인접하는 노드쌍과 상기 인접하는 노드쌍의 에지가 모인 집합을 제공하는 바텀 인터랙트부와, 상기 바텀 인터랙트부에서 제공되는 집합 들에 대하여 그래프 컨벌루션을 적용하여 씬 그래프를 제공하는 업 인터랙트부가 포함되고,
상기 바텀 인터랙트부는, 상기 주체가 상기 객체에 비하여 선행하는 조건으로 상기 집합을 구성하는 씬 그래프 생성장치.
제 1 항에 있어서,
상기 절단부는 의미론적정보를 적어도 포함하고, 바운딩박스를 이용하는 공간적정보, 및 시각적 특징을 반영하는 시각적정보 중의 적어도 하나를 포함하여 상기 스코어를 매겨, 일정 점수 이상의 인접하는 노드쌍 외에는 가지치기 하는 씬 그래프 생성장치.
삭제
삭제
삭제