Adversarial Training(적대적 학습) 이란?

728x90

적대적 학습이란?

머신 러닝은 사람이 못하는 것을 예측할 수도 있지만, 동시에 인위적인 조작에 취약하기도 합니다.

이러한 허점을 이용하여 모델이 잘못된 예측을 하도록 속이는 것을 적대적 공격이라고 합니다.

예를 들어 왼쪽, 오른쪽 모두 우리가 보기에는 판다 사진입니다.

하지만 사실 오른쪽 판다 사진은 왼쪽 판다 사진에 사람은 구별할 수 없는 미세한 노이즈 또는 변화를 준 것입니다.

모델은 이러한 미세한 조정만으로도 오른쪽 판다를 긴팔 원숭이라고 착각할 수 있습니다.

딥 러닝 알고리즘은 픽셀 값, 단어의 순서 등 데이터의 패턴을 사람과는 다르게 숫자 처리를 통해 찾아내기 때문에 이러한 문제가 생기는 것입니다.

특히 대부분의 모델들은 예측하는 과정이 "블랙 박스"이기 때문에 더

또 다른 예로는 자율주행 연구에서 STOP 표지판에 약간의 노이즈를 줌으로써 STOP 게시판을 인지하지 못하게 될 수도 있습니다.

이는 굉장히 위험한 문제로 이어질 수 있죠.

따라서 이러한 적대적 공격으로부터 모델을 보호하기 위해서는 적대적 예제를 학습하여 모델이 미묘한 변화에도 제대로 된 예측을 할 수 있도록 만들어주어야 합니다.

또는 원래 모델을 모방한 두 번째 모델을 학습시키는 "Defensive Distillation"라는 방법도 있다고 합니다. (https://arxiv.org/abs/1511.04508)

적대적 예제 학습 기법에 대해서는 다음에 기회가 된다면 한 번 공부해서 정리해보겠습니다.

참고 자료)

[AI 학습 노트] 적대적 기계 학습이란?_번역 - 협동조합 소요 (逍遙)

원문 보기: What is adversarial machine learning? 아래의 두 사진은 인간이 보았을 때는 똑같은 사진이다. 그러나 구글의 연구원들이 2015년에 공개한 사물 감지 알고리즘은 왼쪽 사진은 “팬더”, 오른쪽

www.soyo.or.kr

기계 학습(Machine Learning, 머신 러닝)은 즐겁다! Part 8

신경망을 의도적으로 속이는 방법

medium.com

728x90

모델 일반화를 위한 데이터 전처리 기법 (0)	2022.02.21
모델 큐레이션 사이트 모음 (모델 트렌드) (0)	2022.01.24
차원의 저주(Curse of dimensionality)란? (2)	2021.11.28

자윰이의 성장일기