KR102304661B1

KR102304661B1 - 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법

Info

Publication number: KR102304661B1
Application number: KR1020190174038A
Authority: KR
Inventors: 호제창; 이병국; 강대기
Original assignee: 동서대학교 산학협력단
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-09-23
Also published as: KR20210081769A; US20210192339A1; US11580391B2

Abstract

본 발명은 컬러(

)의 범위를 설정하고, 컬러(

)의 범위를 일정한 개수(

)로 분할하여 각각의 간격(

)을 생성하는 (a) 단계, 원본 이미지(

)로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 (b) 단계, 활성화 함수를 이용하여 원본 이미지(

)의 각각의 픽셀(

)로부터 각각의 간격 인덱스(

)를 예측하는 (c) 단계, 매핑 및 랜덤화를 통해 새로운 이미지(

)를 생성하는 (d) 단계 및 상기 (d) 단계에서 생성된 이미지(

)로 컨볼루션 신경망을 훈련시켜 예측 레이블(

)을 출력하는 (e) 단계를 포함하여 구성되는 것을 특징으로 한다.

Description

견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법{Attack-less Adversarial Training Method for a Robust Adversarial Defense}

본 발명은 견고한 적대적 방어를 위해 기존의 공격 기술을 사용하지 않는 공격 기술에 독립적인 적대적 훈련 방법에 관한 것으로서, 더욱 상세하게는 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 공격 기술로부터 신경망을 방어할 수 있는 공격 기술에 독립적인 적대적 훈련 방법에 관한 것이다.

적대적 머신 러닝(adversarial machine learning)은 인간이 감지할 수 없는 노이즈로 방어 모델을 기만하는 데 중점을 둔 공격 기술에 관한 것이다. 적대적 사례(adversarial example)는 적대적 머신 러닝에서 생성된 사례 중의 하나이다. 적대적 사례는 컴퓨터 상의 애플리케이션에서 수행되는 물체의 감지, 이미지의 분류, 음성의 인식 등의 작업을 방해함으로써 애플리케이션을 기만할 수 있다. 예를 들어, 얼굴 인식 애플리케이션에서 공격자는 자신의 얼굴에 스티커를 부착하여 자신이 인증된 사용자임을 증명함으로써 애플리케이션을 기만할 수 있다. 또한, 자동차의 이미지 분류 시스템에서 공격자는 정지신호에 적대적 노이즈를 추가함으로써 정지신호를 이동신호로 인식하게 하여, 자동차의 이미지 분류 시스템을 기만할 수 있다. 결과적으로, 이러한 공격은 심각한 재앙을 야기할 수 있다.

이미지 분류에 대한 적대적 사례로는 적법한 이미지에 최소한의 적대적 노이즈를 생성하여 추가하는 것이 있다. 적대적 노이즈는 이미지 상에서 생성되는 픽셀의 섭동을 의미한다. 따라서, 적대적 이미지를 생성할 때, 교란되는 픽셀이 적을수록, 공격 기술은 더욱 효과적이다.

방어 기술은 적대적 사례를 정확하게 탐지하거나, 올바르게 분류할 수 있는 강력한 신경망을 생성하여, 적대적 공격을 예방하는 것을 의미한다. 적대적 훈련은 Ian Goodfellow 등에 의해 최초로 도입된 방어 기술이다. 적대적 훈련은 공격 기술을 사용하여 적대적 사례를 생성한 후, 훈련 중인 단계에서 적대적 사례를 신경망에 적용하는 것이다. 그러나, 적대적 훈련은 기존의 공격 기술 및 기존의 공격 기술에 대한 유사 공격 기술에 대해서만 효과적이고, 새로운 공격 기술 및 첨단 공격 기술에는 취약하다. 또한, 훈련용으로 적대적 사례를 생성하기 위해서는, 적대적 훈련은 적어도 1개 이상의 공격 기술을 필요로 한다.

삭제

본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 새로운 공격 기술 및 첨단 공격 기술로부터 신경망을 강력하게 방어할 수 있는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법을 제공한다.

상기의 과제를 해결하기 위한 본 발명의 실시예에 따르면, 공격 기술에 독립적인 적대적 훈련 방법은 컬러(

)의 범위를 설정하고, 컬러(

)의 범위를 일정한 개수(

)로 분할하여 각각의 간격(

)을 생성하는 (a) 단계, 원본 이미지(

)의 각각의 픽셀(

)로부터 각각의 간격 인덱스(

)를 생성하는 (d) 단계 및 상기 (d) 단계에서 생성된 이미지(

)로 컨볼루션 신경망을 훈련시켜 예측 레이블(

또한, 상기 (b) 단계는 원본 이미지(

)로부터 복수 개의 픽셀(

)을 랜덤하게 추출하고, 추출된 각각의 픽셀(

)을 상기 (a) 단계에서 생성된 간격(

)에 대응시켜 각각의 정확한 간격 인덱스(

)를 생성하는 (b-1) 단계, 각각의 픽셀(

) 및 이에 대응하는 각각의 정확한 간격 인덱스(

)를 포함하여 구성되는 각각의 인스턴스를 생성하는 (b-2) 단계, 상기 (b-2) 단계에서 생성된 복수 개의 인스턴스로 구성되는 1개의 배치를 생성하는 (b-3) 단계 및 상기 (b-3) 단계에서 생성된 배치로 학습 모델을 훈련시키는 (b-4) 단계를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 (d) 단계는 각각의 예측된 간격 인덱스(

)를 매핑하여 대응되는 간격(

)을 반환하는 (d-1)단계, 상기 (d-1) 단계에서 반환된 각각의 간격(

)의 범위 내에서 각각의 새로운 픽셀 (

)을 랜덤하게 생성하는 (d-2) 단계 및 상기 (d-2) 단계에서 생성된 각각의 새로운 픽셀(

)을 원본 이미지(

)의 각각의 픽셀(

)의 위치로 할당하여 새로운 이미지(

)를 생성하는 (d-3) 단계를 포함하여 구성되는 것을 특징으로 한다.

또한, 상기 (c) 단계의 활성화 함수는 Softmax 함수를 사용하는 것을 특징으로 한다.

상기와 같이 구성된 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 신경망의 견고성을 향상시키고, 애매모호한 그래디언트(obfuscated gradient)를 생성시키지 않는 효과가 있다.

또한, 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 랜덤 노이즈 주입 방법 및 적대적 훈련 방법보다 성능이 우수하다.

또한, 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 일반적인 적대적 훈련과는 달리 어떠한 공격 기술도 필요로 하지 않으며, 새로운 공격 기술 및 첨단 공격 기술을 방지할 수 있는 효과가 있다.

도 1은 ALAT의 개념에 대한 순서도이다.
도 2는 ALAT의 개념에 대한 블록도이다.
도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다.
도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.
도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.
도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.
도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다.
도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.
도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.
도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.

이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시예를 첨부한 도면을 참조하여 설명하기로 한다.

그러나, 하기 실시예는 본 발명의 이해를 돕기 위한 일 예에 불과한 것으로 이에 의해 본 발명의 권리범위가 축소되거나 한정되는 것은 아니다. 또한, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

공격 기술에 독립적인 적대적 훈련 방법은 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 첨단 공격 기술로부터 신경망을 강력하게 방어할 수 있는 방어 기술이다.

실시예 1. 공격 기술에 독립적인 적대적 훈련 방법의 주요 단계

본 발명의 공격 기술에 독립적인 적대적 훈련 방법을 이하에서는 ALAT라고 부르기로 한다.

ALAT의 주요 단계를 설명하면 다음과 같다.

도 1은 ALAT의 개념에 대한 순서도이다.

도 1을 참조하면, 첫 번째 단계는 컬러

의 범위를 설정하고, 컬러

의 범위를 일정한 개수로 분할하여 각각의 간격

를 생성하는 단계이다. (1010)

컬러

의 범위를

개의 간격으로 분할하면, 간격들의 결과 세트는 {

|

⊂

}가 된다. 이 때,

,

,...,

이다. 여기서, 간격

의 최소값은

이고, 최대값은

이다.

예를 들어, 컬러

라고 하고, 컬러

를 5개의 간격으로 분할하고, 각각의 간격을 [0,255]에서 동일하게 나누면

=[

,

]=[0,51],

=[

,

]=[52,102],

=[

,

]=[103,153],

=[

,

]=[154,204],

=[

,

]=[205,255]이다.

두 번째 단계는 원본 이미지

로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 단계이다.(1020)

먼저, 원본 이미지

로부터 복수 개의 픽셀

를 랜덤하게 추출하고, 추출된 각각의 픽셀

를 상기 첫 번째 단계에서 생성된 간격

에 대응시켜 각각의 정확한 간격 인덱스

를 생성한다.

그리고, 각각의 픽셀

및 이에 대응하는 각각의 정확한 간격 인덱스

를 포함하여 구성되는 각각의 인스턴스를 생성한다. 이 때, 생성되는 인스턴스는

와 같이 표시할 수 있다. 여기서

는 임의로 추출된 픽셀이고,

는 임의로 추출된 픽셀에 대응하는 정확한 간격 인덱스이다.

그리고, 생성된 복수 개의 인스턴스(instance)로 구성되는 1개의 배치(batch)를 생성한다.

마지막으로, 생성된 1개의 배치를 학습 모델에 입력시켜, 학습 모델을 훈련시킨다.

예를 들어, 이전 예제에서 임의로 추출된 픽셀

을 38이라고 하면, 임의로 추출된 픽셀

에 대응하는 정확한 간격 인덱스

은 1이다. 왜냐하면, 38은 0 이상 51 이하의 수이기 때문이다. 다시 말해서, 정확한 간격 인덱스

이 1인 이유는 38이 간격

내에 속한 값이기 때문이다.

이 때, 생성되는 인스턴스는

이다. 또한, 인스턴스

,

등도 같은 방식으로 생성할 수 있다. 그리고, 생성된 복수 개의 인스턴스

,

로 구성되는 1개의 배치가 생성된다. 마지막으로, 생성된 배치를 학습 모델에 입력시켜, 학습 모델을 훈련시킬 수 있다.

본 발명의 실시예 1의 두 번째 단계에서 훈련된 학습 모델을 이하에서는 ALAT 모델이라고 부르기로 한다.

세 번째 단계는 활성화 함수를 이용하여 원본 이미지

의 각각의 픽셀

로부터 각각의 예측된 간격 인덱스

를 출력하는 단계이다.(1030)

간격 인덱스를 예측하는 방정식은 다음과 같다.

여기서,

는 예측된 간격 인덱스이고,

는 가중치,

는 원본 이미지의 픽셀,

는 바이어스(bias),

는 활성화 함수인 Softmax 함수이다.

여기서, 정확한 간격 인덱스는

로 표시하고, 예측된 간격 인덱스는

으로 표시한다. 왜냐하면, 예측된 간격 인덱스는 정확한 간격 인덱스 값이 아닌 훈련된 ALAT 모델로 예측할 수 있는 간격 인덱스 값이기 때문에, 각각의 기호를 구별하여 사용한다.

네 번째 단계는 매핑 및 랜덤화를 통해 새로운 이미지

을 생성하는 단계이다. (1040)

먼저, 각각의 예측된 간격 인덱스

를 매핑하여 이에 대응되는 각각의 간격

을 반환한다. 간격

를 반환하는 함수는 다음과 같다.

여기서, colorset(.)는 예측된 간격 인덱스

로부터 각각의 간격

를 반환하는 함수이다.

그리고, 각각의 매핑된 간격

범위 내에서 각각의 새로운 픽셀

을 랜덤하게 생성한다.

새로운 픽셀

을 생성하는 함수는 다음과 같이 정의된다.

(

,

)

여기서,

는

의 최소값

과

의 최대값

사이의 임의의 값을 생성하는 랜덤 함수이다.

마지막으로, 각각의 새로운 픽셀

을 원본 이미지

의 각각의 픽셀

의 위치로 할당하여 ALAT 이미지

를 생성한다.

예를 들어, 이전 예제에서, 원본 이미지의 한 픽셀

를 75라 하면, ALAT 모델에 의해 예측되는 간격 인덱스

는 2가 될 수 있다. 그리고, 예측된 간격 인덱스

는 colorset 함수에 의해 매핑되어 간격

를 반환한다. 그리고, 매핑된 간격

의 최소값 52와

의 최대값 102 사이의 범위 내에서 새로운 픽셀

를 랜덤하게 생성할 수 있다. 마지막으로, 새로운 픽셀

을 원본 이미지

의 픽셀

의 위치로 할당하고, 원본 이미지의 나머지 픽셀에 대해서도 동일한 방식을 반복함으로써 새로운 이미지

를 생성할 수 있다. 여기서, 원본 이미지로부터 새롭게 생성된 이미지

을 ALAT 이미지라고 부르기로 한다. 또한, 본 발명의 실시예 1의 첫 번째 단계부터 네 번째 단계까지 적용된 방법을 이하에서는 ALAT 방법이라고 부르기로 한다.

다섯 번째 단계는 상기 네 번째 단계에서 ALAT 이미지

로 컨볼루션 신경망(CNN, Convolutional Neural Network)을 훈련시켜 예측 레이블

을 출력하는 단계이다.

ALAT 이미지

로 컨볼루션 신경망을 훈련시키는 방정식은 다음과 같다. (1050)

여기서, 함수

는 한 이미지에 대해 예측 레이블

를 생성하는 함수이다.

도 2는 ALAT의 개념에 대한 블록도이다.

도 2를 참조하면, 컨볼루션 신경망은 3개의 컨볼루션 레이어(three convolutional layers)와 1개의 완전히 연결된 레이어(one fully connected layer)를 포함하여 구성된다.

도 2를 참조하면, 원본 이미지의 각 픽셀이 ALAT 방법에 의해 재생되어 ALAT 이미지를 생성하고, 생성된 ALAT 이미지를 컨볼루션 신경망에 입력하여 예측 레이블을 생성하는 과정을 확인할 수 있다.

도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다. 도 3을 참조하면, 세 쌍의 이미지를 볼 수 있다. 한 쌍의 이미지에서 왼쪽은 원본 이미지이고, 오른쪽은 ALAT 이미지이다. 실시예 1에서 원본 이미지로부터 생성된 ALAT 이미지는 도 3과 같이 나타낼 수 있다.

실험예 1. 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능 비교

먼저, 실험예 1에서 주로 사용되는 기호는 다음과 같다.

는 원본 이미지

에 대한 적대적 이미지이다.

는 한 이미지를 컨볼루션 신경망(CNN, Convolutional Neural Network)에 입력하여 출력할 수 있는 예측 레이블이다.

또한, 함수

는 한 이미지에 대해 예측 레이블

를 생성하는 함수이다. 그리고, 공격 기술

는 함수

로부터 또는 함수

없이 원본 이미지

에서 적대적 이미지

를 생성하는 함수이다. 그리고,

은 2개의 이미지

,

사이의 거리이다.

본 발명의 실험예 1에 적용되는 공격 기술에는 FGSM(Fast Gradient Sign Method), BIM(Basic Iterative Method), MIM(Momentum Iterative Method), L2-CW(L2-Carlini & Wagner's Attack), BPDA(Backward Pass Differentiable Approximation) 및 EOT(Expectation Over Transformation)가 있다.

먼저, FGSM(Fast Gradient Sign Method)은 Goodfellow 등에 의해 제안되었으며, 적대적 사례를 생성하는 빠르고 간단한 공격 기술이다.

BIM(Basic Iterative Method)은 Kurakin 등에 의해 제안되었으며, 원본 이미지에 대한 최소한의 섭동을 얻기 위해 작은 단계의 크기로 다중 반복을 적용한 FGSM의 확장이다.

MIM(Momentum Iterative Method)은 Dong에 등에 의해 제안되었으며, 운동량 알고리즘을 갖추어 BIM보다 더 진보된 공격 기술이다.

L2-CW는 최소한의 섭동으로 적대적 사례를 찾는데 효과적인 공격 기술이다.

BPDA(Backward Pass Differentiable Approximation)는 역전파(Back-Propagation) 단계 동안 신경망 내에서 미분이 불가능한 레이어를 미분 가능한 근사 함수로 대체하는 공격 기술이다.

EOT(Expectation Over Transformation)는 입력값을 취하는 변환 함수의 선택된 분포에 대해 적대적으로 남아있는 적대적 사례를 생성할 수 있는 공격 기술이다.

그리고, 본 발명의 실험예 1에서는 일반적으로 공개된 벤치마크 데이터세트인 MNIST(Modified National Institute of Standards and Technology), Fashion MNIST, CIFAR-10(Canadian Institute For Advanced Research)을 사용한다.

CIFAR-10 데이터세트에 대해, ALAT 방법이 컬러 이미지에 미치는 영향을 분석하기 위해 다른 CIFAR-10(그레이스케일)을 생성한다.

MNIST 및 fashion MNIST는 10개의 등급 레이블과 관련된 60,000개의 훈련 이미지와 10,000개의 테스트 이미지를 갖는다. 각 이미지의 크기는 28x28 그레이스케일이다. 그리고, CIFAR-10는 10개의 등급과 관련된 50,000개의 훈련 이미지와 10,000개의 테스트 이미지를 갖는다. 각 이미지의 크기는 32x32 컬러이다.

본 발명의 실험예 1에서 FGSM, BIM 및 MIM 공격을 적용하는 경우, MNIST 데이터세트에 대해서는 각 픽셀에 대해 허용되는 최대 섭동

로 설정하고, Fashion MNIST 및 CIFAR-10 데이터세트 에 대해서는

로 설정한다.

또한, L2-CW 공격에 대해, 공격을 실행하기 위한 반복 횟수를 1,000으로 설정한다.

본 발명에서는 서로 다른 공격 시나리오를 갖는 각각의 사례로부터 ALAT 방법을 평가할 수 있다. 이 때, 각각의 사례는 정상적인 사례, 사례 A, 사례 B, 사례 C, 사례 D가 있다.

원본 이미지

에 ALAT 방법을 적용하여 ALAT 이미지

이 생성되는 과정을 다음 식과 같이 표현할 수 있다.

정상적인 사례에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 정상적인 사례는 공격이 적용되지 않는 경우로, 원본 이미지로 컨볼루션 신경망을 테스트할 수 있다. 방어 메커니즘은 원본 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.

그리고, 방어 메커니즘은 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.

사례 A에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 알고 있지만, ALAT 방법에 대해서는 알지 못한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.

방어 메커니즘은 수신된 적대적 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.

사례 B에서는 테스트 중인 단계에서 ALAT 방법 없이 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 알고 있지만, ALAT 방법에 대해서는 알지 못한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 이용하여 한 이미지로부터 적대적 이미지를 생성한다.

훈련된 컨볼루션 신경망은 ALAT 방법에 의한 전처리 과정을 거치지 않고, 적대적 이미지를 입력으로 사용한다.

사례 C에서는 테스트 중인 단계에서 ALAT 방법 없이 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 모두 알고 있다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.

사례 D에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 모두 알고 있다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.

그리고, 방어 메커니즘은 새롭게 생성된 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.

도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.

도 4를 참조하면, 도 4의 첫 번째 열은 원본 이미지이다. 도 4의 두 번째 열은 정상적인 사례에서 원본 이미지로부터 생성된 ALAT 이미지이다. 도 4의 사례 A, 사례 D 열은 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 생성된 적대적 이미지들로부터 생성된 ALAT 이미지이다. 도 4의 사례 B 및 사례 C 열은 FGSM, BIM, MIM, L2-CW 공격에 의해 생성된 적대적 이미지이다.

한편, 사례 C 및 D로부터 생성된 적대적 이미지는 공격자가 ALAT 방법에서 사용된 랜덤화 방법의 미분을 계산하기 어렵기 때문에 높은 섭동을 갖는다. 랜덤화 방법의 미분 계산 문제를 완화시키고, 사례 D에서 생성된 적대적 이미지의 높은 왜곡도를 최소화하기 위해, 각각의 공격 기술을 BPDA 방법 또는 EOT 방법과 통합한다.

방어 시스템이 애매모호한 그래디언트(obfuscated gradient)를 생성하게 되면, 공격 기술은 적대적 사례를 생성하기 위한 적절한 그래디언트 정보를 획득할 수 없다. 또한, BPDA 방법 또는 EOT 방법을 각각의 공격 기술에 통합하는 경우, 기존의 방어 시스템은 애매모호한 그래디언트(obfuscated gradient)로 인해 적대적 사례를 완전히 방어할 수 없는 것으로 알려져 있다.

ALAT 방법이 애매모호한 그래디언트(obfuscated gradient)를 생성하는지 평가하기 위해서, 각각의 공격 기술들을 BPDA 방법 또는 EOT 방법과 통합한다.

ALAT 이미지

는 원본 이미지

에 어떤 노이즈를 추가함으로써 생성된다고 가정하면,

를 구하는 식은 다음과 같다.

여기서,

은 노이즈 행렬이다.

이 때, 다음과 같이 예측 레이블을 산출할 수 있다.

여기서,

는 가중치 행렬이고,

는 바이어스(bias) 행렬이다.

상기 식에서,

의 함수로

를 유도하는 것은 단지

만을 반환한다는 것을 알 수 있다. 이로부터 사례 C 및 사례 D의 공격 시나리오에서 생성된 적대적 사례가 사례 A 및 사례 B의 공격 시나리오에서 생성된 적대적 사례보다 더 높은 섭동을 갖는다는 것을 알 수 있다.

사례 C 및 사례 D의 공격 시나리오에서의 섭동을 최소화하기 위해서, 사례 C 및 사례 D의 공격 시나리오에 대해 BPDA를 사용하여, 적대적 사례를 생성한다.

먼저, 원본 이미지를 ALAT 이미지로 변환하는 전처리 방법을 실행한다. 그리고, 컨볼루션 신경망에 ALAT 이미지를 입력한 후, 컨볼루션 신경망의 예측값 및 손실값을 얻는다. 그 이후, 역-전파 동안

에 관한 손실함수 값에 ALAT 이미지

을 더하여 적대적 ALAT 이미지

을 생성한다.

여기서,

는 각 픽셀에 대해 허용되는 최대 섭동이고,

은 손실 함수이다.

마지막으로, 적대적 ALAT 이미지

에서 노이즈

를 뺀다.

실험예 1에서 사용되는 BPDA의 일반 방정식은 다음과 같다.

여기서

는 공격 기술이다.

EOT 방법을 평가하기 위해서, 10개의 ALAT 이미지를 생성하고, 그 이미지들의 평균을 계산하여, 최종 ALAT 이미지를 생성한다.

최종 ALAT 이미지를 이용하여 적대적 이미지를 생성한다.

도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.

도 5를 참조하면, ALAT 방법이 Non-ALAT 방법보다 성능이 우수함을 알 수 있다. 이것은 ALAT 방법 없이 훈련된 컨볼루션 신경망보다 ALAT 방법으로 훈련된 컨볼루션 신경망이 더욱 견고하다는 것을 의미한다. 또한, MNIST 및 Fashion MNIST 데이터 세트가 적용된 사례 B에서도 컨볼루션 신경망의 성능이 견고하다는 것을 알 수 있다. 또한, 사례 A 및 사례 D에서 ALAT 방법을 사용한 컨볼루션 신경망은 사례 B 및 사례 C에서 ALAT 방법을 사용한 컨볼루션 신경망보다 성능이 우수함을 알 수 있다.

도 5를 참조하면, BPDA 및 EOT를 다른 공격 기술과 통합한 ALAT 방법에서 컨볼루션 신경망의 성능이 미세하게 저하되었지만, ALAT(BPDA)와 ALAT(10-EOT)의 정확도는 ALAT(사례 A)의 정확도와 유사하다. 따라서, ALAT는 BPDA나 EOT와 같이 애매모호한 그래디언트(obfuscated gradient)를 공격하기 위해 특화된 방법을 효과적으로 방어한다는 것을 알 수 있다.

도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.

도 6을 참조하면, ALAT 방법은 컬러 데이터 세트보다 그레이스케일 데이터 세트에서 성능이 더욱 우수하다. 이는 CIFAR-10과 CIFAR-10(그레이스케일) 데이터 세트를 비교하면 알 수 있다. 도 6의 ALAT(BPDA) 및 ALAT(10-EOT)에서 알 수 있듯이, BPDA 및 EOT를 다른 공격 기술과 통합한 ALAT 방법에서는 생성된 적대적 이미지의 섭동이 크게 감소한다.

한편, 사례 C 및 사례 D는 실용적이지 않다. 왜냐하면, 인간이 적대적 사례의 섭동을 인식하지 않기 위해서는, 원본 이미지와 적대적 이미지 간의 섭동이 가능한 낮아야 되기 때문이다.

실험예 2. 1개의 ALAT 모델을 사용한 경우와 여러 개의 ALAT 모델을 사용한 경우의 성능 비교

실험예 2에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.

여러 개의 ALAT 모델을 훈련시키고, 훈련된 여러 개의 ALAT 모델 중 하나로 원본 이미지의 각각의 픽셀을 예측할 수 있다. 다시 말해서, 원본 이미지의 픽셀을 예측하기 위하여, 여러 개의 ALAT 모델들 중 하나의 ALAT 모델을 임의로 선택할 수 있다. 그 이후, 모든 픽셀들이 재생될 때까지 여러 개의 ALAT 모델들 중 하나의 ALAT 모델을 임의로 선택하는 단계를 반복한다.

실험예 1에서 전술한 바와 같이, 사례 C 및 사례 D는 실용적이지 않으므로 실험에서 제외된다.

도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다. 도 7을 참고하면, 20개의 ALAT 모델을 사용한 경우가 이 1개의 ALAT 모델을 사용한 경우보다 성능이 우수함을 알 수 있다.

실험예 3. ALAT 방법과 랜덤 노이즈 주입(RNI, Random Noise Injection) 방법의 성능 비교

실험예 3에서도 실험예 1에서 사용한 벤치마크 데이터세트와 동일한 벤치마크 데이터 세트를 사용한다.

(1) 훈련 중인 단계 (2) 테스트 중인 단계 (3) 훈련 중인 단계 및 테스트 중인 단계 모두를 포함하는 3가지 서로 다른 단계에 RNI 방법을 적용한다.

RNI 방법에서는 균일 분포를 사용하며, 분포 범위는 -1.0과 +1.0 사이로 설정되어 있다.

균일 분포로부터 생성된 노이즈 값은 원본 이미지에 추가된다. 그리고, 합산된 출력을 0.0에서 1.0 (정규화된 픽셀 값) 사이의 범위로 자른다.

RNI의 방정식은 다음과 같다.

여기서,

는 원본 이미지이고,

은 RNI 방법으로부터 생성된 이미지이다. 그리고,

은 -1에서 +1 범위의 균일 분포이다.

도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.

도 8을 참조하면, 각 데이터세트에서 왼쪽은 원본 이미지이고, 중간은 RNI 이미지이고, 오른쪽은 ALAT 이미지이다. 도 8을 참조하면, ALAT 방법은 RNI 방법과 달리 인간에 의해 인식 가능한 이미지를 생성할 수 있다.

도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.

도 9를 참조하면, 훈련 중인 단계 및 두 단계 모두에서 ALT 방법이 RNI 방법보다 성능이 뛰어남을 알 수 있다. 또한, 에포크(epoch)의 수가 증가함에 따라, ALAT 방법은 RNI 방법보다 정확도면에서 성능이 더욱 우수해진다.

도 9를 참조하면, RNI 이미지는 ALAT 이미지보다 높은 섭동을 갖는다. 따라서, RNI 방법으로 이미지를 생성하면, 컨볼루션 신경망은 그 이미지를 정확하게 분류하기 어렵다.

실험예 4. ALAT 방법과 적대적 훈련 방법의 성능 비교

실험예 4에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.

적대적 훈련(adversarial training)은 훈련 중인 단계의 공격 기술과 관련된 것이다. 적대적 훈련에서 FGSM 공격과 같이 낮은 레벨의 공격 기술을 사용하면, BIM 또는 MIM 공격과 같이 높은 레벨의 공격 기술에 비해 성능이 저하된다. 현실적인 실험을 위해, MIM 공격을 적대적 훈련에 사용되는 공격 기술로 설정할 수 있다.

도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.

도 10을 참조하면, 대부분의 경우 ALAT 방법이 적대적 훈련보다 성능이 우수함을 알 수 있다.

실험예 5. 간격의 개수

에 따른 ALAT 방법의 성능

실험예 5에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.

실험예 5에서는 간격의 개수

가 컨볼루션 신경망에 미치는 영향을 분석한다. 실험예 5에서

,

및

으로 각각 설정한다.

표 1은 1000 번째의 에포크에서 서로 다른

개의 간격이 적용된 정상적인 사례, 사례 A 및 사례 B에서 ALAT 방법의 성능을 비교한 표이다.

표 1을 참조하면,

인 ALAT 방법의 성능이 가장 우수하다. 다시 말해서,

인 ALAT 방법의 경우 우승 노드는 19개이다. 또한,

인 ALAT 방법의 경우 우승 노드는 15개이고,

인 ALAT 방법의 경우 우승 노드는 2개이다.

ALAT 방법에 적절한

를 사용하면, 컨볼루션 신경망의 견고성이 향상된다.

삭제

Claims

(a) 컬러(
)의 범위를 설정하고, 컬러(
)의 범위를 일정한 개수(
)로 분할하여 각각의 간격(
)을 생성하는 단계;
(b) 원본 이미지(
)로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 단계;
(c) 활성화 함수를 이용하여 원본 이미지(
)의 각각의 픽셀(
)로부터 각각의 간격 인덱스(
)를 예측하는 단계;
(d) 매핑 및 랜덤화를 통해 새로운 이미지(
)를 생성하는 단계; 및
(e) 상기 (d) 단계에서 생성된 이미지(
)로 컨볼루션 신경망을 훈련시켜 예측 레이블(
)을 출력하는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
제 1항에 있어서,
상기 (b) 단계에서는,
(b-1) 원본 이미지(
)로부터 복수 개의 픽셀(
)을 랜덤하게 추출하고, 추출된 각각의 픽셀(
)을 상기 (a) 단계에서 생성된 간격(
)에 대응시켜 각각의 정확한 간격 인덱스(
)를 생성하는 단계;
(b-2) 각각의 픽셀(
) 및 이에 대응하는 각각의 정확한 간격 인덱스(
)를 포함하여 구성되는 각각의 인스턴스를 생성하는 단계;
(b-3) 상기 (b-2) 단계에서 생성된 복수 개의 인스턴스로 구성되는 1개의 배치를 생성하는 단계; 및
(b-4) 상기 (b-3) 단계에서 생성된 배치로 학습 모델을 훈련시키는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
제 1항에 있어서,
상기 (d) 단계에서는,
(d-1) 각각의 예측된 간격 인덱스(
)를 매핑하여 대응되는 간격(
)을 반환하는 단계;
(d-2) 상기 (d-1) 단계에서 반환된 각각의 간격(
)의 범위 내에서 각각의 새로운 픽셀 (
)을 랜덤하게 생성하는 단계; 및
(d-3) 상기 (d-2) 단계에서 생성된 각각의 새로운 픽셀(
)을 원본 이미지(
)의 각각의 픽셀(
)의 위치로 할당하여 새로운 이미지(
)를 생성하는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
제 1항에 있어서,
상기 (c) 단계의 활성화 함수는 Softmax 함수를 사용하는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법