728x90
반응형
적대적 학습이란?
머신 러닝은 사람이 못하는 것을 예측할 수도 있지만, 동시에 인위적인 조작에 취약하기도 합니다.
이러한 허점을 이용하여 모델이 잘못된 예측을 하도록 속이는 것을 적대적 공격이라고 합니다.
예를 들어 왼쪽, 오른쪽 모두 우리가 보기에는 판다 사진입니다.
하지만 사실 오른쪽 판다 사진은 왼쪽 판다 사진에 사람은 구별할 수 없는 미세한 노이즈 또는 변화를 준 것입니다.
모델은 이러한 미세한 조정만으로도 오른쪽 판다를 긴팔 원숭이라고 착각할 수 있습니다.
딥 러닝 알고리즘은 픽셀 값, 단어의 순서 등 데이터의 패턴을 사람과는 다르게 숫자 처리를 통해 찾아내기 때문에 이러한 문제가 생기는 것입니다.
특히 대부분의 모델들은 예측하는 과정이 "블랙 박스"이기 때문에 더
또 다른 예로는 자율주행 연구에서 STOP 표지판에 약간의 노이즈를 줌으로써 STOP 게시판을 인지하지 못하게 될 수도 있습니다.
이는 굉장히 위험한 문제로 이어질 수 있죠.
따라서 이러한 적대적 공격으로부터 모델을 보호하기 위해서는 적대적 예제를 학습하여 모델이 미묘한 변화에도 제대로 된 예측을 할 수 있도록 만들어주어야 합니다.
또는 원래 모델을 모방한 두 번째 모델을 학습시키는 "Defensive Distillation"라는 방법도 있다고 합니다. (https://arxiv.org/abs/1511.04508)
적대적 예제 학습 기법에 대해서는 다음에 기회가 된다면 한 번 공부해서 정리해보겠습니다.
참고 자료)
728x90
반응형
'DL & ML > Study' 카테고리의 다른 글
모델 일반화를 위한 데이터 전처리 기법 (0) | 2022.02.21 |
---|---|
모델 큐레이션 사이트 모음 (모델 트렌드) (0) | 2022.01.24 |
차원의 저주(Curse of dimensionality)란? (2) | 2021.11.28 |