-
Notifications
You must be signed in to change notification settings - Fork 23
Identity Mappings in Deep Residual Nets
https://kangbk0120.github.io/articles/2018-01/identity-mapping-in-deep-resnet
안녕하세요 오늘 리뷰할 논문은 Identity Mappings in Deep Residual Networks(He et al)입니다. 전체적으로 기존에 나왔던 Residual Network(이하 ResNet)이 왜 좋은 성능이 나오나 검증하는 논문의 성격을 띕니다. 또한 논문에서 기존의 논문이 제시한 구조외의 이런저런 변형을 가했을 때 성능이 어떻게 변하는지도 검증하고 있습니다. 시작합니다.
ResNet은 Residual Units이라고 하는 블록을 쌓은 형태로 이루어져 있습니다. 이 부분에 대해서는 간략하게만 소개하고 넘어가겠습니다. 이 블록을 수식으로 표현하면
이라고 할 수 있죠. 여기서
이 논문에서는 "direct" path에 대한 실험을 중점적으로 수행했습니다.
Residual Unit의 기본 함수는
이죠.
이 됩니다. 여기서 재귀적으로 얘네를 풀어쓰면
가 됩니다.
앞서 말했지만 이 부분은
바로 위의 식을 역전파시키기 위해 미분한다면 어떻게 될까요?
$\mathcal{E}$ 는 loss를 의미합니다
요렇게 됩니다. 즉 gradient
생각해보면 뒤의 항이 미니배치 내의 모든 데이터에서 -1인 경우는 극히 드물겠죠. 따라서 weight가 작더라도 gradient가 사라지지 않습니다(vanishing gradient문제가 없습니다)
자 그래서 정말로 identity mapping이 최고의 결과를 가져다 줄까요? 이 논문에서는 이를 검증하기 위해 다양한 variation을 줬습니다.
가장 먼저 contant scaling입니다.
$\hat{F}$ 는$F$ 앞에 붙어야하는$\lambda$ 들을 합쳐서 표현한 것입니다.
가 되겠죠. 얘를 역전파시키기 위해 미분을 한다면 아래와 같아집니다.
아까와 다른 점은
그래서 이를 검증하기 위해 다양한 네트워크를 설계합니다.
Constant Scaling의 경우에는
Exclusive gating의 경우에는
결국 shorcut의 정보를 훼손시키지 않는 것이 제일 좋다는 이야기를 하고 있습니다. shorcut path에 어떤 곱연산을 시도하면 최적화하는데 방해가 된다는 얘기지요.
위에서 우리는 shorcut path를 손상시키지 않는 것이 가장 좋다는 걸 알았습니다. 여기에서는 활성화함수에 대한 여러 실험을 진행합니다. 우리는
원래 ResNet의 구조는 a와 같습니다. BN이 각 weight layer 다음에 들어가있고, 이후 ReLU를 거치죠. 마지막에는 addition을 한다음 ReLU를 적용합니다. 나머지는 이 논문에서 실험해본 구조들입니다.
b의 경우에는 더한 다음 BN을 적용한 것이구요, c는 더하기 전에 ReLU를 넣은 것입니다.
원래의 구조를 보면 activation이 shorcut과 residual path 모두에 영향을 미칩니다.
로 변하게 되죠. 이를 사진으로 보면 이렇게 됩니다.
이렇게 변형한 모델의 결과는
였습니다. full pre-activation을 적용한 경우 기본 모델보다 성능이 좋아졌다는 특징이 있습니다. 그런데 여기서 특이한 점이 하나 있었습니다.
pre-activation을 적용한 모델의 경우 기본 모델보다 training set에 대한 정확도는 낮지만, test에 대한 정확도는 더 높았습니다. 이 논문에서는 이러한 결과가
- pre-activation을 적용한 경우 최적화가 훨씬 쉬워졌다.
- BN이 모델의 regularization 역할을 수행했다.
라고 주장합니다.
결국 요약해보자면, shorcut path의 정보는 가능한 손상시키지 않는 것이 역전파, 정보의 전달 측면에서 유리하며, residual path에서는 shorcut과 합쳐주기 전에 activation을 취해주는 것이 유리하다는 것입니다. 즉 이 논문은 기존 ResNet을 조금 더 개량한 새로운 ResNet을 주장합니다.
바로 오른쪽 모델처럼 말이죠.