KR102304661B1 - 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 - Google Patents
견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 Download PDFInfo
- Publication number
- KR102304661B1 KR102304661B1 KR1020190174038A KR20190174038A KR102304661B1 KR 102304661 B1 KR102304661 B1 KR 102304661B1 KR 1020190174038 A KR1020190174038 A KR 1020190174038A KR 20190174038 A KR20190174038 A KR 20190174038A KR 102304661 B1 KR102304661 B1 KR 102304661B1
- Authority
- KR
- South Korea
- Prior art keywords
- alat
- image
- adversarial
- attack
- hostile
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims description 160
- 230000007123 defense Effects 0.000 title claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims 2
- HYIMSNHJOBLJNT-UHFFFAOYSA-N nifedipine Chemical compound COC(=O)C1=C(C)NC(C)=C(C(=O)OC)C1C1=CC=CC=C1[N+]([O-])=O HYIMSNHJOBLJNT-UHFFFAOYSA-N 0.000 description 114
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 230000008260 defense mechanism Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- ZLSWBLPERHFHIS-UHFFFAOYSA-N Fenoprop Chemical compound OC(=O)C(C)OC1=CC(Cl)=C(Cl)C=C1Cl ZLSWBLPERHFHIS-UHFFFAOYSA-N 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0063—Image watermarking in relation to collusion attacks, e.g. collusion attack resistant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 컬러()의 범위를 설정하고, 컬러()의 범위를 일정한 개수()로 분할하여 각각의 간격()을 생성하는 (a) 단계, 원본 이미지()로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 (b) 단계, 활성화 함수를 이용하여 원본 이미지()의 각각의 픽셀()로부터 각각의 간격 인덱스()를 예측하는 (c) 단계, 매핑 및 랜덤화를 통해 새로운 이미지()를 생성하는 (d) 단계 및 상기 (d) 단계에서 생성된 이미지()로 컨볼루션 신경망을 훈련시켜 예측 레이블()을 출력하는 (e) 단계를 포함하여 구성되는 것을 특징으로 한다.
Description
본 발명은 견고한 적대적 방어를 위해 기존의 공격 기술을 사용하지 않는 공격 기술에 독립적인 적대적 훈련 방법에 관한 것으로서, 더욱 상세하게는 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 공격 기술로부터 신경망을 방어할 수 있는 공격 기술에 독립적인 적대적 훈련 방법에 관한 것이다.
적대적 머신 러닝(adversarial machine learning)은 인간이 감지할 수 없는 노이즈로 방어 모델을 기만하는 데 중점을 둔 공격 기술에 관한 것이다. 적대적 사례(adversarial example)는 적대적 머신 러닝에서 생성된 사례 중의 하나이다. 적대적 사례는 컴퓨터 상의 애플리케이션에서 수행되는 물체의 감지, 이미지의 분류, 음성의 인식 등의 작업을 방해함으로써 애플리케이션을 기만할 수 있다. 예를 들어, 얼굴 인식 애플리케이션에서 공격자는 자신의 얼굴에 스티커를 부착하여 자신이 인증된 사용자임을 증명함으로써 애플리케이션을 기만할 수 있다. 또한, 자동차의 이미지 분류 시스템에서 공격자는 정지신호에 적대적 노이즈를 추가함으로써 정지신호를 이동신호로 인식하게 하여, 자동차의 이미지 분류 시스템을 기만할 수 있다. 결과적으로, 이러한 공격은 심각한 재앙을 야기할 수 있다.
이미지 분류에 대한 적대적 사례로는 적법한 이미지에 최소한의 적대적 노이즈를 생성하여 추가하는 것이 있다. 적대적 노이즈는 이미지 상에서 생성되는 픽셀의 섭동을 의미한다. 따라서, 적대적 이미지를 생성할 때, 교란되는 픽셀이 적을수록, 공격 기술은 더욱 효과적이다.
방어 기술은 적대적 사례를 정확하게 탐지하거나, 올바르게 분류할 수 있는 강력한 신경망을 생성하여, 적대적 공격을 예방하는 것을 의미한다. 적대적 훈련은 Ian Goodfellow 등에 의해 최초로 도입된 방어 기술이다. 적대적 훈련은 공격 기술을 사용하여 적대적 사례를 생성한 후, 훈련 중인 단계에서 적대적 사례를 신경망에 적용하는 것이다. 그러나, 적대적 훈련은 기존의 공격 기술 및 기존의 공격 기술에 대한 유사 공격 기술에 대해서만 효과적이고, 새로운 공격 기술 및 첨단 공격 기술에는 취약하다. 또한, 훈련용으로 적대적 사례를 생성하기 위해서는, 적대적 훈련은 적어도 1개 이상의 공격 기술을 필요로 한다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 새로운 공격 기술 및 첨단 공격 기술로부터 신경망을 강력하게 방어할 수 있는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법을 제공한다.
상기의 과제를 해결하기 위한 본 발명의 실시예에 따르면, 공격 기술에 독립적인 적대적 훈련 방법은 컬러()의 범위를 설정하고, 컬러()의 범위를 일정한 개수()로 분할하여 각각의 간격()을 생성하는 (a) 단계, 원본 이미지()로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 (b) 단계, 활성화 함수를 이용하여 원본 이미지()의 각각의 픽셀()로부터 각각의 간격 인덱스()를 예측하는 (c) 단계, 매핑 및 랜덤화를 통해 새로운 이미지()를 생성하는 (d) 단계 및 상기 (d) 단계에서 생성된 이미지()로 컨볼루션 신경망을 훈련시켜 예측 레이블()을 출력하는 (e) 단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 (b) 단계는 원본 이미지()로부터 복수 개의 픽셀()을 랜덤하게 추출하고, 추출된 각각의 픽셀()을 상기 (a) 단계에서 생성된 간격()에 대응시켜 각각의 정확한 간격 인덱스()를 생성하는 (b-1) 단계, 각각의 픽셀() 및 이에 대응하는 각각의 정확한 간격 인덱스()를 포함하여 구성되는 각각의 인스턴스를 생성하는 (b-2) 단계, 상기 (b-2) 단계에서 생성된 복수 개의 인스턴스로 구성되는 1개의 배치를 생성하는 (b-3) 단계 및 상기 (b-3) 단계에서 생성된 배치로 학습 모델을 훈련시키는 (b-4) 단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 (d) 단계는 각각의 예측된 간격 인덱스()를 매핑하여 대응되는 간격()을 반환하는 (d-1)단계, 상기 (d-1) 단계에서 반환된 각각의 간격()의 범위 내에서 각각의 새로운 픽셀 ()을 랜덤하게 생성하는 (d-2) 단계 및 상기 (d-2) 단계에서 생성된 각각의 새로운 픽셀()을 원본 이미지()의 각각의 픽셀()의 위치로 할당하여 새로운 이미지()를 생성하는 (d-3) 단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 (c) 단계의 활성화 함수는 Softmax 함수를 사용하는 것을 특징으로 한다.
상기와 같이 구성된 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 신경망의 견고성을 향상시키고, 애매모호한 그래디언트(obfuscated gradient)를 생성시키지 않는 효과가 있다.
또한, 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 랜덤 노이즈 주입 방법 및 적대적 훈련 방법보다 성능이 우수하다.
또한, 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 일반적인 적대적 훈련과는 달리 어떠한 공격 기술도 필요로 하지 않으며, 새로운 공격 기술 및 첨단 공격 기술을 방지할 수 있는 효과가 있다.
도 1은 ALAT의 개념에 대한 순서도이다.
도 2는 ALAT의 개념에 대한 블록도이다.
도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다.
도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.
도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.
도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.
도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다.
도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.
도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.
도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.
도 2는 ALAT의 개념에 대한 블록도이다.
도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다.
도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.
도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.
도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.
도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다.
도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.
도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.
도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.
이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시예를 첨부한 도면을 참조하여 설명하기로 한다.
그러나, 하기 실시예는 본 발명의 이해를 돕기 위한 일 예에 불과한 것으로 이에 의해 본 발명의 권리범위가 축소되거나 한정되는 것은 아니다. 또한, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
공격 기술에 독립적인 적대적 훈련 방법은 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 첨단 공격 기술로부터 신경망을 강력하게 방어할 수 있는 방어 기술이다.
실시예 1. 공격 기술에 독립적인 적대적 훈련 방법의 주요 단계
본 발명의 공격 기술에 독립적인 적대적 훈련 방법을 이하에서는 ALAT라고 부르기로 한다.
ALAT의 주요 단계를 설명하면 다음과 같다.
도 1은 ALAT의 개념에 대한 순서도이다.
예를 들어, 컬러 라고 하고, 컬러 를 5개의 간격으로 분할하고, 각각의 간격을 [0,255]에서 동일하게 나누면 =[,]=[0,51], =[,]=[52,102],=[,]=[103,153],=[,]=[154,204], =[,]=[205,255]이다.
그리고, 각각의 픽셀 및 이에 대응하는 각각의 정확한 간격 인덱스 를 포함하여 구성되는 각각의 인스턴스를 생성한다. 이 때, 생성되는 인스턴스는 와 같이 표시할 수 있다. 여기서 는 임의로 추출된 픽셀이고, 는 임의로 추출된 픽셀에 대응하는 정확한 간격 인덱스이다.
그리고, 생성된 복수 개의 인스턴스(instance)로 구성되는 1개의 배치(batch)를 생성한다.
마지막으로, 생성된 1개의 배치를 학습 모델에 입력시켜, 학습 모델을 훈련시킨다.
예를 들어, 이전 예제에서 임의로 추출된 픽셀 을 38이라고 하면, 임의로 추출된 픽셀 에 대응하는 정확한 간격 인덱스 은 1이다. 왜냐하면, 38은 0 이상 51 이하의 수이기 때문이다. 다시 말해서, 정확한 간격 인덱스 이 1인 이유는 38이 간격 내에 속한 값이기 때문이다.
이 때, 생성되는 인스턴스는 이다. 또한, 인스턴스 , , 등도 같은 방식으로 생성할 수 있다. 그리고, 생성된 복수 개의 인스턴스 , , , 로 구성되는 1개의 배치가 생성된다. 마지막으로, 생성된 배치를 학습 모델에 입력시켜, 학습 모델을 훈련시킬 수 있다.
본 발명의 실시예 1의 두 번째 단계에서 훈련된 학습 모델을 이하에서는 ALAT 모델이라고 부르기로 한다.
간격 인덱스를 예측하는 방정식은 다음과 같다.
여기서, 정확한 간격 인덱스는 로 표시하고, 예측된 간격 인덱스는 으로 표시한다. 왜냐하면, 예측된 간격 인덱스는 정확한 간격 인덱스 값이 아닌 훈련된 ALAT 모델로 예측할 수 있는 간격 인덱스 값이기 때문에, 각각의 기호를 구별하여 사용한다.
예를 들어, 이전 예제에서, 원본 이미지의 한 픽셀 를 75라 하면, ALAT 모델에 의해 예측되는 간격 인덱스 는 2가 될 수 있다. 그리고, 예측된 간격 인덱스 는 colorset 함수에 의해 매핑되어 간격 를 반환한다. 그리고, 매핑된 간격 의 최소값 52와 의 최대값 102 사이의 범위 내에서 새로운 픽셀 를 랜덤하게 생성할 수 있다. 마지막으로, 새로운 픽셀 을 원본 이미지 의 픽셀 의 위치로 할당하고, 원본 이미지의 나머지 픽셀에 대해서도 동일한 방식을 반복함으로써 새로운 이미지 를 생성할 수 있다. 여기서, 원본 이미지로부터 새롭게 생성된 이미지 을 ALAT 이미지라고 부르기로 한다. 또한, 본 발명의 실시예 1의 첫 번째 단계부터 네 번째 단계까지 적용된 방법을 이하에서는 ALAT 방법이라고 부르기로 한다.
다섯 번째 단계는 상기 네 번째 단계에서 ALAT 이미지 로 컨볼루션 신경망(CNN, Convolutional Neural Network)을 훈련시켜 예측 레이블 을 출력하는 단계이다.
도 2는 ALAT의 개념에 대한 블록도이다.
도 2를 참조하면, 컨볼루션 신경망은 3개의 컨볼루션 레이어(three convolutional layers)와 1개의 완전히 연결된 레이어(one fully connected layer)를 포함하여 구성된다.
도 2를 참조하면, 원본 이미지의 각 픽셀이 ALAT 방법에 의해 재생되어 ALAT 이미지를 생성하고, 생성된 ALAT 이미지를 컨볼루션 신경망에 입력하여 예측 레이블을 생성하는 과정을 확인할 수 있다.
도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다. 도 3을 참조하면, 세 쌍의 이미지를 볼 수 있다. 한 쌍의 이미지에서 왼쪽은 원본 이미지이고, 오른쪽은 ALAT 이미지이다. 실시예 1에서 원본 이미지로부터 생성된 ALAT 이미지는 도 3과 같이 나타낼 수 있다.
실험예 1. 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능 비교
먼저, 실험예 1에서 주로 사용되는 기호는 다음과 같다.
는 원본 이미지 에 대한 적대적 이미지이다. 는 한 이미지를 컨볼루션 신경망(CNN, Convolutional Neural Network)에 입력하여 출력할 수 있는 예측 레이블이다.
또한, 함수 는 한 이미지에 대해 예측 레이블 를 생성하는 함수이다. 그리고, 공격 기술 는 함수 로부터 또는 함수 없이 원본 이미지 에서 적대적 이미지 를 생성하는 함수이다. 그리고, 은 2개의 이미지 , 사이의 거리이다.
본 발명의 실험예 1에 적용되는 공격 기술에는 FGSM(Fast Gradient Sign Method), BIM(Basic Iterative Method), MIM(Momentum Iterative Method), L2-CW(L2-Carlini & Wagner's Attack), BPDA(Backward Pass Differentiable Approximation) 및 EOT(Expectation Over Transformation)가 있다.
먼저, FGSM(Fast Gradient Sign Method)은 Goodfellow 등에 의해 제안되었으며, 적대적 사례를 생성하는 빠르고 간단한 공격 기술이다.
BIM(Basic Iterative Method)은 Kurakin 등에 의해 제안되었으며, 원본 이미지에 대한 최소한의 섭동을 얻기 위해 작은 단계의 크기로 다중 반복을 적용한 FGSM의 확장이다.
MIM(Momentum Iterative Method)은 Dong에 등에 의해 제안되었으며, 운동량 알고리즘을 갖추어 BIM보다 더 진보된 공격 기술이다.
L2-CW는 최소한의 섭동으로 적대적 사례를 찾는데 효과적인 공격 기술이다.
BPDA(Backward Pass Differentiable Approximation)는 역전파(Back-Propagation) 단계 동안 신경망 내에서 미분이 불가능한 레이어를 미분 가능한 근사 함수로 대체하는 공격 기술이다.
EOT(Expectation Over Transformation)는 입력값을 취하는 변환 함수의 선택된 분포에 대해 적대적으로 남아있는 적대적 사례를 생성할 수 있는 공격 기술이다.
그리고, 본 발명의 실험예 1에서는 일반적으로 공개된 벤치마크 데이터세트인 MNIST(Modified National Institute of Standards and Technology), Fashion MNIST, CIFAR-10(Canadian Institute For Advanced Research)을 사용한다.
CIFAR-10 데이터세트에 대해, ALAT 방법이 컬러 이미지에 미치는 영향을 분석하기 위해 다른 CIFAR-10(그레이스케일)을 생성한다.
MNIST 및 fashion MNIST는 10개의 등급 레이블과 관련된 60,000개의 훈련 이미지와 10,000개의 테스트 이미지를 갖는다. 각 이미지의 크기는 28x28 그레이스케일이다. 그리고, CIFAR-10는 10개의 등급과 관련된 50,000개의 훈련 이미지와 10,000개의 테스트 이미지를 갖는다. 각 이미지의 크기는 32x32 컬러이다.
본 발명의 실험예 1에서 FGSM, BIM 및 MIM 공격을 적용하는 경우, MNIST 데이터세트에 대해서는 각 픽셀에 대해 허용되는 최대 섭동 로 설정하고, Fashion MNIST 및 CIFAR-10 데이터세트 에 대해서는 로 설정한다.
또한, L2-CW 공격에 대해, 공격을 실행하기 위한 반복 횟수를 1,000으로 설정한다.
본 발명에서는 서로 다른 공격 시나리오를 갖는 각각의 사례로부터 ALAT 방법을 평가할 수 있다. 이 때, 각각의 사례는 정상적인 사례, 사례 A, 사례 B, 사례 C, 사례 D가 있다.
정상적인 사례에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 정상적인 사례는 공격이 적용되지 않는 경우로, 원본 이미지로 컨볼루션 신경망을 테스트할 수 있다. 방어 메커니즘은 원본 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.
그리고, 방어 메커니즘은 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.
사례 A에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 알고 있지만, ALAT 방법에 대해서는 알지 못한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.
방어 메커니즘은 수신된 적대적 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.
그리고, 방어 메커니즘은 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.
사례 B에서는 테스트 중인 단계에서 ALAT 방법 없이 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 알고 있지만, ALAT 방법에 대해서는 알지 못한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 이용하여 한 이미지로부터 적대적 이미지를 생성한다.
훈련된 컨볼루션 신경망은 ALAT 방법에 의한 전처리 과정을 거치지 않고, 적대적 이미지를 입력으로 사용한다.
사례 C에서는 테스트 중인 단계에서 ALAT 방법 없이 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 모두 알고 있다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.
훈련된 컨볼루션 신경망은 ALAT 방법에 의한 전처리 과정을 거치지 않고, 적대적 이미지를 입력으로 사용한다.
사례 D에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 모두 알고 있다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.
방어 메커니즘은 수신된 적대적 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.
그리고, 방어 메커니즘은 새롭게 생성된 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.
도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.
도 4를 참조하면, 도 4의 첫 번째 열은 원본 이미지이다. 도 4의 두 번째 열은 정상적인 사례에서 원본 이미지로부터 생성된 ALAT 이미지이다. 도 4의 사례 A, 사례 D 열은 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 생성된 적대적 이미지들로부터 생성된 ALAT 이미지이다. 도 4의 사례 B 및 사례 C 열은 FGSM, BIM, MIM, L2-CW 공격에 의해 생성된 적대적 이미지이다.
한편, 사례 C 및 D로부터 생성된 적대적 이미지는 공격자가 ALAT 방법에서 사용된 랜덤화 방법의 미분을 계산하기 어렵기 때문에 높은 섭동을 갖는다. 랜덤화 방법의 미분 계산 문제를 완화시키고, 사례 D에서 생성된 적대적 이미지의 높은 왜곡도를 최소화하기 위해, 각각의 공격 기술을 BPDA 방법 또는 EOT 방법과 통합한다.
방어 시스템이 애매모호한 그래디언트(obfuscated gradient)를 생성하게 되면, 공격 기술은 적대적 사례를 생성하기 위한 적절한 그래디언트 정보를 획득할 수 없다. 또한, BPDA 방법 또는 EOT 방법을 각각의 공격 기술에 통합하는 경우, 기존의 방어 시스템은 애매모호한 그래디언트(obfuscated gradient)로 인해 적대적 사례를 완전히 방어할 수 없는 것으로 알려져 있다.
ALAT 방법이 애매모호한 그래디언트(obfuscated gradient)를 생성하는지 평가하기 위해서, 각각의 공격 기술들을 BPDA 방법 또는 EOT 방법과 통합한다.
이 때, 다음과 같이 예측 레이블을 산출할 수 있다.
상기 식에서, 의 함수로 를 유도하는 것은 단지 만을 반환한다는 것을 알 수 있다. 이로부터 사례 C 및 사례 D의 공격 시나리오에서 생성된 적대적 사례가 사례 A 및 사례 B의 공격 시나리오에서 생성된 적대적 사례보다 더 높은 섭동을 갖는다는 것을 알 수 있다.
사례 C 및 사례 D의 공격 시나리오에서의 섭동을 최소화하기 위해서, 사례 C 및 사례 D의 공격 시나리오에 대해 BPDA를 사용하여, 적대적 사례를 생성한다.
먼저, 원본 이미지를 ALAT 이미지로 변환하는 전처리 방법을 실행한다. 그리고, 컨볼루션 신경망에 ALAT 이미지를 입력한 후, 컨볼루션 신경망의 예측값 및 손실값을 얻는다. 그 이후, 역-전파 동안 에 관한 손실함수 값에 ALAT 이미지 을 더하여 적대적 ALAT 이미지 을 생성한다.
실험예 1에서 사용되는 BPDA의 일반 방정식은 다음과 같다.
EOT 방법을 평가하기 위해서, 10개의 ALAT 이미지를 생성하고, 그 이미지들의 평균을 계산하여, 최종 ALAT 이미지를 생성한다.
최종 ALAT 이미지를 이용하여 적대적 이미지를 생성한다.
도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.
도 5를 참조하면, ALAT 방법이 Non-ALAT 방법보다 성능이 우수함을 알 수 있다. 이것은 ALAT 방법 없이 훈련된 컨볼루션 신경망보다 ALAT 방법으로 훈련된 컨볼루션 신경망이 더욱 견고하다는 것을 의미한다. 또한, MNIST 및 Fashion MNIST 데이터 세트가 적용된 사례 B에서도 컨볼루션 신경망의 성능이 견고하다는 것을 알 수 있다. 또한, 사례 A 및 사례 D에서 ALAT 방법을 사용한 컨볼루션 신경망은 사례 B 및 사례 C에서 ALAT 방법을 사용한 컨볼루션 신경망보다 성능이 우수함을 알 수 있다.
도 5를 참조하면, BPDA 및 EOT를 다른 공격 기술과 통합한 ALAT 방법에서 컨볼루션 신경망의 성능이 미세하게 저하되었지만, ALAT(BPDA)와 ALAT(10-EOT)의 정확도는 ALAT(사례 A)의 정확도와 유사하다. 따라서, ALAT는 BPDA나 EOT와 같이 애매모호한 그래디언트(obfuscated gradient)를 공격하기 위해 특화된 방법을 효과적으로 방어한다는 것을 알 수 있다.
도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.
도 6을 참조하면, ALAT 방법은 컬러 데이터 세트보다 그레이스케일 데이터 세트에서 성능이 더욱 우수하다. 이는 CIFAR-10과 CIFAR-10(그레이스케일) 데이터 세트를 비교하면 알 수 있다. 도 6의 ALAT(BPDA) 및 ALAT(10-EOT)에서 알 수 있듯이, BPDA 및 EOT를 다른 공격 기술과 통합한 ALAT 방법에서는 생성된 적대적 이미지의 섭동이 크게 감소한다.
한편, 사례 C 및 사례 D는 실용적이지 않다. 왜냐하면, 인간이 적대적 사례의 섭동을 인식하지 않기 위해서는, 원본 이미지와 적대적 이미지 간의 섭동이 가능한 낮아야 되기 때문이다.
실험예 2. 1개의 ALAT 모델을 사용한 경우와 여러 개의 ALAT 모델을 사용한 경우의 성능 비교
실험예 2에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.
여러 개의 ALAT 모델을 훈련시키고, 훈련된 여러 개의 ALAT 모델 중 하나로 원본 이미지의 각각의 픽셀을 예측할 수 있다. 다시 말해서, 원본 이미지의 픽셀을 예측하기 위하여, 여러 개의 ALAT 모델들 중 하나의 ALAT 모델을 임의로 선택할 수 있다. 그 이후, 모든 픽셀들이 재생될 때까지 여러 개의 ALAT 모델들 중 하나의 ALAT 모델을 임의로 선택하는 단계를 반복한다.
실험예 1에서 전술한 바와 같이, 사례 C 및 사례 D는 실용적이지 않으므로 실험에서 제외된다.
도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다. 도 7을 참고하면, 20개의 ALAT 모델을 사용한 경우가 이 1개의 ALAT 모델을 사용한 경우보다 성능이 우수함을 알 수 있다.
실험예 3. ALAT 방법과 랜덤 노이즈 주입(RNI, Random Noise Injection) 방법의 성능 비교
실험예 3에서도 실험예 1에서 사용한 벤치마크 데이터세트와 동일한 벤치마크 데이터 세트를 사용한다.
(1) 훈련 중인 단계 (2) 테스트 중인 단계 (3) 훈련 중인 단계 및 테스트 중인 단계 모두를 포함하는 3가지 서로 다른 단계에 RNI 방법을 적용한다.
RNI 방법에서는 균일 분포를 사용하며, 분포 범위는 -1.0과 +1.0 사이로 설정되어 있다.
균일 분포로부터 생성된 노이즈 값은 원본 이미지에 추가된다. 그리고, 합산된 출력을 0.0에서 1.0 (정규화된 픽셀 값) 사이의 범위로 자른다.
RNI의 방정식은 다음과 같다.
도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.
도 8을 참조하면, 각 데이터세트에서 왼쪽은 원본 이미지이고, 중간은 RNI 이미지이고, 오른쪽은 ALAT 이미지이다. 도 8을 참조하면, ALAT 방법은 RNI 방법과 달리 인간에 의해 인식 가능한 이미지를 생성할 수 있다.
도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.
도 9를 참조하면, 훈련 중인 단계 및 두 단계 모두에서 ALT 방법이 RNI 방법보다 성능이 뛰어남을 알 수 있다. 또한, 에포크(epoch)의 수가 증가함에 따라, ALAT 방법은 RNI 방법보다 정확도면에서 성능이 더욱 우수해진다.
도 9를 참조하면, RNI 이미지는 ALAT 이미지보다 높은 섭동을 갖는다. 따라서, RNI 방법으로 이미지를 생성하면, 컨볼루션 신경망은 그 이미지를 정확하게 분류하기 어렵다.
실험예 4. ALAT 방법과 적대적 훈련 방법의 성능 비교
실험예 4에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.
적대적 훈련(adversarial training)은 훈련 중인 단계의 공격 기술과 관련된 것이다. 적대적 훈련에서 FGSM 공격과 같이 낮은 레벨의 공격 기술을 사용하면, BIM 또는 MIM 공격과 같이 높은 레벨의 공격 기술에 비해 성능이 저하된다. 현실적인 실험을 위해, MIM 공격을 적대적 훈련에 사용되는 공격 기술로 설정할 수 있다.
도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.
도 10을 참조하면, 대부분의 경우 ALAT 방법이 적대적 훈련보다 성능이 우수함을 알 수 있다.
실험예 5에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.
실험예 1에서 전술한 바와 같이, 사례 C 및 사례 D는 실용적이지 않으므로 실험에서 제외된다.
표 1을 참조하면, 인 ALAT 방법의 성능이 가장 우수하다. 다시 말해서, 인 ALAT 방법의 경우 우승 노드는 19개이다. 또한, 인 ALAT 방법의 경우 우승 노드는 15개이고, 인 ALAT 방법의 경우 우승 노드는 2개이다.
삭제
Claims (4)
- (a) 컬러()의 범위를 설정하고, 컬러()의 범위를 일정한 개수()로 분할하여 각각의 간격()을 생성하는 단계;
(b) 원본 이미지()로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 단계;
(c) 활성화 함수를 이용하여 원본 이미지()의 각각의 픽셀()로부터 각각의 간격 인덱스()를 예측하는 단계;
(d) 매핑 및 랜덤화를 통해 새로운 이미지()를 생성하는 단계; 및
(e) 상기 (d) 단계에서 생성된 이미지()로 컨볼루션 신경망을 훈련시켜 예측 레이블()을 출력하는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
- 제 1항에 있어서,
상기 (b) 단계에서는,
(b-1) 원본 이미지()로부터 복수 개의 픽셀()을 랜덤하게 추출하고, 추출된 각각의 픽셀()을 상기 (a) 단계에서 생성된 간격()에 대응시켜 각각의 정확한 간격 인덱스()를 생성하는 단계;
(b-2) 각각의 픽셀() 및 이에 대응하는 각각의 정확한 간격 인덱스()를 포함하여 구성되는 각각의 인스턴스를 생성하는 단계;
(b-3) 상기 (b-2) 단계에서 생성된 복수 개의 인스턴스로 구성되는 1개의 배치를 생성하는 단계; 및
(b-4) 상기 (b-3) 단계에서 생성된 배치로 학습 모델을 훈련시키는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
- 제 1항에 있어서,
상기 (c) 단계의 활성화 함수는 Softmax 함수를 사용하는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190174038A KR102304661B1 (ko) | 2019-12-24 | 2019-12-24 | 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 |
US16/783,736 US11580391B2 (en) | 2019-12-24 | 2020-02-06 | Attack-less adversarial training for robust adversarial defense |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190174038A KR102304661B1 (ko) | 2019-12-24 | 2019-12-24 | 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210081769A KR20210081769A (ko) | 2021-07-02 |
KR102304661B1 true KR102304661B1 (ko) | 2021-09-23 |
Family
ID=76437229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190174038A KR102304661B1 (ko) | 2019-12-24 | 2019-12-24 | 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11580391B2 (ko) |
KR (1) | KR102304661B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102458103B1 (ko) | 2022-03-31 | 2022-10-25 | 주식회사 애자일소다 | 다중 분류를 위한 강화학습 장치 및 방법 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7409189B2 (ja) * | 2020-03-24 | 2024-01-09 | セイコーエプソン株式会社 | 色彩値予測システムおよび色彩値予測器の生成方法 |
WO2023277206A1 (ko) * | 2021-06-28 | 2023-01-05 | 동서대학교 산학협력단 | 기만공격에 의한 ai 역기능 방지 시스템 |
CN113554089B (zh) * | 2021-07-22 | 2023-04-18 | 西安电子科技大学 | 一种图像分类对抗样本防御方法、***及数据处理终端 |
CN113807400B (zh) * | 2021-08-17 | 2024-03-29 | 西安理工大学 | 一种基于对抗攻击的高光谱图像分类方法、***和设备 |
CN115439719B (zh) * | 2022-10-27 | 2023-03-28 | 泉州装备制造研究所 | 一种针对对抗攻击的深度学习模型防御方法及模型 |
CN115631085B (zh) * | 2022-12-19 | 2023-04-11 | 浙江君同智能科技有限责任公司 | 一种用于图像保护的主动防御方法及装置 |
CN116523032B (zh) * | 2023-03-13 | 2023-09-29 | 之江实验室 | 一种图像文本双端迁移攻击方法、装置和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5538967B2 (ja) | 2009-06-18 | 2014-07-02 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
US20190220605A1 (en) | 2019-03-22 | 2019-07-18 | Intel Corporation | Adversarial training of neural networks using information about activation path differentials |
WO2019143384A1 (en) | 2018-01-18 | 2019-07-25 | Google Llc | Systems and methods for improved adversarial training of machine-learned models |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101326691B1 (ko) * | 2011-11-28 | 2013-11-08 | 경북대학교 산학협력단 | 지역적 특징의 통계적 학습을 통한 강건한 얼굴인식방법 |
CN104488268B (zh) * | 2012-07-04 | 2018-07-17 | 汤姆逊许可公司 | 具有增加数量的可能编码模式的空间预测 |
US10373073B2 (en) * | 2016-01-11 | 2019-08-06 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
KR20180077847A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 문장 검증 장치 및 방법 |
KR20190098106A (ko) * | 2019-08-02 | 2019-08-21 | 엘지전자 주식회사 | 배치 정규화 레이어 트레이닝 방법 |
US11836249B2 (en) * | 2019-11-21 | 2023-12-05 | Paypal, Inc. | System and method for counteracting adversarial attacks |
-
2019
- 2019-12-24 KR KR1020190174038A patent/KR102304661B1/ko active IP Right Grant
-
2020
- 2020-02-06 US US16/783,736 patent/US11580391B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5538967B2 (ja) | 2009-06-18 | 2014-07-02 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
WO2019143384A1 (en) | 2018-01-18 | 2019-07-25 | Google Llc | Systems and methods for improved adversarial training of machine-learned models |
US20190220605A1 (en) | 2019-03-22 | 2019-07-18 | Intel Corporation | Adversarial training of neural networks using information about activation path differentials |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102458103B1 (ko) | 2022-03-31 | 2022-10-25 | 주식회사 애자일소다 | 다중 분류를 위한 강화학습 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20210081769A (ko) | 2021-07-02 |
US20210192339A1 (en) | 2021-06-24 |
US11580391B2 (en) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102304661B1 (ko) | 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 | |
Rahman et al. | Membership inference attack against differentially private deep learning model. | |
Aldahdooh et al. | Adversarial example detection for DNN models: A review and experimental comparison | |
Das et al. | Shield: Fast, practical defense and vaccination for deep learning using jpeg compression | |
Kiourti et al. | Trojdrl: Trojan attacks on deep reinforcement learning agents | |
Kwon et al. | BlindNet backdoor: Attack on deep neural network using blind watermark | |
Agarwal et al. | Cognitive data augmentation for adversarial defense via pixel masking | |
Li et al. | Deep learning backdoors | |
Katzir et al. | Detecting adversarial perturbations through spatial behavior in activation spaces | |
Sun et al. | Can shape structure features improve model robustness under diverse adversarial settings? | |
Taran et al. | Machine learning through cryptographic glasses: combating adversarial attacks by key-based diversified aggregation | |
Chang et al. | Evaluating robustness of ai models against adversarial attacks | |
Guesmi et al. | Sit: Stochastic input transformation to defend against adversarial attacks on deep neural networks | |
Laykaviriyakul et al. | Collaborative Defense-GAN for protecting adversarial attacks on classification system | |
Hu et al. | RL-VAEGAN: Adversarial defense for reinforcement learning agents via style transfer | |
Zhao et al. | Natural backdoor attacks on deep neural networks via raindrops | |
Qin et al. | Feature fusion based adversarial example detection against second-round adversarial attacks | |
Choi et al. | PIHA: Detection method using perceptual image hashing against query-based adversarial attacks | |
Dai et al. | Formulating robustness against unforeseen attacks | |
Liu et al. | Model compression hardens deep neural networks: A new perspective to prevent adversarial attacks | |
Hui et al. | FoolChecker: A platform to evaluate the robustness of images against adversarial attacks | |
Gao et al. | Backdoor Attack with Sparse and Invisible Trigger | |
CN114638356B (zh) | 一种静态权重引导的深度神经网络后门检测方法及*** | |
Dong et al. | Mind your heart: Stealthy backdoor attack on dynamic deep neural network in edge computing | |
Westbrook et al. | Adversarial attacks on machine learning in embedded and iot platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |