[ResNet] Deep Residual Learning for Image Recognition

https://arxiv.org/pdf/1512.03385.pdf

ResNet이란?

레즈넷(Residual Network, ResNet)은 합성곱 신경망 모델임. 대규모 이미지넷 데이터세트 학습함

VGG 모델과 ~~합성곱 계층, ReLU, 풀링, 완전 연결 계층~~ 등을 이용해 구성함.

VGG 모델 같은 경우에는 ~~더 작은 크기의 필터를 사용해~~ 계산 효율성을 향상시켰지만, 깊은 신경망 구조로 인해 기울기 소실 문제가 발생함.

그래서 레즈넷은 이러한 ~~기울기 소실 문제를 해결하기 위해서~~

잔차 연결(Residual Connection), 항등 사상(Identity Mapping), 잔차 블록(Residual Block)을 통해

기울기 소실 문제를 해결하고 계산 효율성을 높임

레즈넷은 계층의 수에 따라 ResNet-18. 34. 50, 101, 152의 형태로 제공됨

레즈넷의 기본 구조는

- 입력층

~~- 합성곱 계층~~

~~- 배치 정규화 계층~~

~~- 활성화 함수~~

~~- 잔차 블록~~

~~- 평균값 풀링 계층~~

~~- 완전 연결 계층~~

- 출력층

으로 이뤄져 있음

레즈넷에는 34, 50, 101, 152개의 계층으로 구성된 네트워크가 있음

모델은 잔차 블록의 개수에 따라 결정됨

레즈넷은 두 개의 합성곱 계층과 단축 연결로 이뤄져 있음

단축 연결은 이전 계층의 출력값을 현재 계층의 입력값과 더해주는 방식으로 구현됨

~~(기존 순방향 신경망 방식은 이전 계층의 정보가 현재 계층에만 영향을끼친 반면,~~

~~레즈넷은 이전 계층에서 발생한 정보를 다음 계층에 전달함)~~

이전 계층에서 발생한 정보를 계속 전달한다면

모델이 깊어지더라도 기울기 소실 문제가 발생하지 않고 정보가 손실되는 현상을 방지할 수 있음.

일반적인 합성곱 신경망은 현재 계층에서 정보가 손실되면 다음 계층에서 기울기 소실 문제가 발생함.

또한 계층이 많아져 모델이 깊어지면 기울기가 역전파 과정에서 점차 작아지는 문제가 발생함

레즈넷의 단축 연결은 이전 계층의 출력값을 현재 계층의 입력값과 더해

이전 계층에서 발생한 정보를 계속 전달함

이렇게 더해진 기울기는 일정 수준 이상 유지할 수 있음

단축 연결을 통해 깊은 모델에서 발생하는 기울기 소실 문제를 해결하고

정보를 유지함으로써 모델이 특정 가중치에 수렴하는 속도를 단축시킬 수 있음

기울기 저하 문제

깊은 구조의 모델을 설계한다면더 많은 특징 벡터를 계산할 수 있어,

계층마다 더 세밀한 지역 특징과 전역 특징을 구별할 수 있게 된다.

이는 모델의 표현력 향상으로 이어지므로 더 복잡한 문제를 해결할 수 있게 됨

레즈넷은 이러한 원리를 기반으로 깊은 계층을 쌓는 실험을 진행함

실험에서는 20개의 계층과 56개의 계층으로 구성된 레즈넷 모델을 사용해 정확도를 측정해봄

실험 결과, 오히려 56개의 계층이 정확도가 더 낮게 나옴

-> 기울기 저하 문제 (Degration problem) : 일정 수준 이상으로 계층을 깊게 쌓으면 오히려 학습되지 않는 현상

이 문제는 기울기 폭주나 기울기 소실의 문제로 해결할 수 없음

레즈넷은 입력과 출력 사이의 차이만 학습해 기울기 저하 문제를 해결함

잔차 학습 (Residual Learning)

항등 사상 (Identity Mapping)의 등장 : 기울기 저하의 원인을 파악하기 위해 항등 사상 실험을 진행함.

계층이 깊어질수록 학습이 어렵기 때문에 얕은 모델을 먼저 학습한 후

~~항등 사상으로 초기화된 계층을 추가해~~ 모델을 깊게 구성함.

이미 학습된 모델의 결과를 그대로 출력하는 구조이므로

성능이 하락하지 않을 것이라고 생각하지만

입력과 출력을 동일하게 주었음에도 불구하고 기울기 저하 문제가 발생함

이를 통해 단순히 계층을 깊게만 구성하더라도 기울기 저하가 발생하는 것을 파악함

이 문제를 해결하기 위해 레즈넷에서는 잔차 학습 (Residual Learning) 기법을 적용함

잔차 학습이란 모델이 입력과 출력 사이의 차이(Residual)만 학습하게 하는 방법임.

기존 인공 신경망은 이전 계층에서 활성화된 값을 다음 계층으로 전달한다

이 방법은 H(x) 값을 최적화하는 방향으로 학습을 진행한다

그러나 계층이 깊어질수록 기울기 저하 문제로 인해 H(x)를 최적화하기 어려워진다.

그러므로 레즈넷에서는 H(x)를 F(x)+x로 변경한다

이 구조를 빌딩 블록(Building Block)이라 한다

이 구조에서는 x는 항등 사상이므로 이전 계층에서 학습된 결과를 그대로 가져온다

그러므로 x는 이미 정해진 고정값으로 볼 수 있음

하지만 레즈넷은 잔차 연결을 통해 입력값 x가 출력값에 더해져

이전 계층에서 학습된 정보가 보존되고

새로운 정보를 추가할 수 있음

이를 통해 레즈넷은 입력과 출력의 차이를 학습할 수 있으며

학습 능력이 향상된다

잔차 연결

잔차 연결(Residual Connection)이란 스킵 연결(Skip Connection), 단축 연결(Shortcut Connection)이라고 부르며

입력값이 신경망 계층을 통과한 후 출력값에 더해지는 연결을 의미함

일반적인 딥러닝 신경망에서는 입력과 출력을 직접 연결하여 정보를 전달함

이 경우 네트워크가 깊어질수록 입출력 간의 거리가 멀어져 정보의 손실 가능성이 높아짐

붉은색 곡선이 잔차 연결을 의미하는 것임

이 연결을 통해 입력값과 출력값 간의 거리가 줄어들어 학습이 수월해짐

정보의 손실이 줄어들어 더 나은 성능을 얻을 수 있음

잔차 연결 수식

레즈넷에서 잔차 연결은 덧셈 연산으로 만들어짐

그러므로 다음 계층에서 F(x)+x와 같은 결과가 나옴

x는 이전 계층의 출력값이며

Wi는 현재 계층을 의미

이때 F의 출력값과 x의 차원이 동일하다면 덧셈 연산이 가능함

F의 출력값과 x의 차원이 동일하지 않으면 8.2 와 같이 처리함

Ws는 F의 출력값의 ~~차원을 맞추기 위해~~ x에 적용하는 가중치 행렬임

~~아래 계산 부분 이해 안 감~~

레즈넷은 앞선 그림 8.6처럼 기본적으로 2개의 합성곱 계층이 연결되어 빌딩 블록을 구성함

하지만 더 깊은 구조로 모델을 구성하면 연산량이 늘어나 학습에 어려움을 겪음

~ (CNN란 및 구조 및 작동 원리 다시 정리하고 돌아오기)

모델 구현

class BasicBlock(nn.Module) : BasicBlock이라는 클래스를 정의함

이 클래스는 nn.Module에서 상속됨.

PyTorch에서는 사용자 지정 신경망 레이어나 아키텍처를 만들려면 nn.Module을 상속해야 함

expansion = 1

ResNet과 같은 아키텍처에서 expansion이라는 용어는 입력과 비교했을 때 채널 수가 얼마나 증가하는지를 나타냄.

여기서 expansion이 1로 설정되어 있으므로 입력과 동일한 채널 수를 유지함을 의미함

def __init__(self, inplanes, planes, stride=1) : 이는 BasicBlock ~~클래스의 생성자 메서드~~임. 클래스의 인스턴스 변수를 초기화함

- inplanes는 입력 채널의 수

- planes는 출력 채널의 수 (합성곱 레어이에서의 필터 또는 커널 수)

- stride는 합성곱 레이어에서 사용되는 보폭임. 기본값은 1로 설정함

super().__init__() : 부모 클래스의 생성자 (nn.Module)를 호출하여 BasicBlock 클래스를 올바르게 초기화함

코드를 보다보니 제대로 이해하기 위해서는 ResNet의 구조의 계층들에 대해서 알 필요가 있음

이는 기본적인 딥러닝 CNN 파트 내용들임

다시 한번 봐보겠음

논문 내용

Abstract

신경망은 깊어질수록 학습시키는게 어렵다. 그래서 이 논문에서는 잔차 학습 프레임워크를 사용해서 이 문제를 해결하고자 한다. 잔차 학습을 사용함으로써 레퍼런스가 존재하는 인풋을 레이어의 잔차 학습 함수에 집어넣음으로써 계층을 재구성하봤다. 이 논문에서는 실험적인 결과를 통해 잔차 네트워크가 정규화하기 더 쉽고, 더 깊은 깊이에서 상대적으로 더 높은 정확도를 보여주는 것을 확인할 수 있다. - 이하 실험 결과 통한 자랑 생략..ㅎ -

Introduction

깊은 신경망은 image classification이나 사소한 visual recognition 일들을 처리하는데 도움을 주고 있다.

~~Deep networks naturally integrate low/mid/higher level features and classifiers in an end-to-end multilayer fashion, and the "levels" of features can be enriched by the number of stacked layers(depth)~~

문제 제기 : 딥러닝 모델의 레이어를 깊이 쌓으면 항상 성능이 좋아지는걸까?

하지만 이 질문을 답하기 위해서는 gradient vanishing/exploding 문제를 해결해야했다.

다행이도 이 문제는 다양한 방법들로 개선되어왔다.

(by normalized initialization and intermediate normalization layers, which enable networks with tens of layers to start converging for stochastic gradient descent(SGD) with back-propagation.)

위의 문제 제기를 해결하기 위해서 계속 언급되는 문제는 Degradation problem이다.

이는 오버피팅 문제는 아니다.

왜냐하면 오버피팅 문제일 경우, train accuracy는 높고 test accuracy는 낮아야하는데,

이 경우에는 두 accuracy가 모두 낮기 때문이다.

또한 네트워크 구조상 레이어를 깊이 쌓았을 때 ~~최적화가 잘 안되기 때문이다.~~

Degradation(of training accuracy)를 통해서 우리는 모든 시스템이 모두 Optimize하기 쉬운 것이 아니구나를 알 수 있다.

(이 논문에서는 이 degradation 문제를 더 깊은 레이어가 쌓일 수록 optimize가 복잡해지기 때문에 일어나는 부작용이라고 생각하고 이를 해결해보고자 하는 것이다)

이를 실험하기 위해 얕은 아키텍처와 더 깊은 아키텍처를 비교해보려고 한다.

여기서 더 깊은 아키텍처는 얕은 아키텍처에 identity mapping을 통해 레이어를 추가한 것이다.

identity mapping을 했기 때문에 얕은 아키텍처와 같은 training error를 보여야한다고 생각되지만

이는 그닥 좋은 해결책은 아니였다.

그래서 이 논문에서는 deep residual learning framework를 소개한다.

Instead of hoping each few stacked layers ~~directly fit a desired underlying mapping~~,

we explicitly let these layers fit a residual mapping.

Formally, denoting the desired underlying mapping as H(x), we let the stacked nonlinear layers fit another mapping of F(x) := H(x)−x. The original mapping is recast into F(x)+x. We hypothesize that it is easier to optimize the residual mapping than to optimize the original, unreferenced mapping. To the extreme, if an identity mapping were optimal, it would be easier to push the residual to zero than to fit an identity mapping by a stack of nonlinear layers.

공식적으로 원하는 기본 매핑을 H(x)로 표시하고, 스택된 비선형 레이어를 F(x) := H(x)-x의 다른 매핑에 맞추도록 합니다. 원래 매핑은 F(x)+x로 다시 캐스팅됩니다. 우리는 참조되지 않은 원본 매핑을 최적화하는 것보다 잔여 매핑을 최적화하는 것이 더 쉽다고 가정합니다. 극단적으로 말하자면, 아이덴티티 매핑이 최적이라면 비선형 레이어 스택으로 아이덴티티 매핑을 맞추는 것보다 잔여를 0으로 밀어붙이는 것이 더 쉬울 것입니다.

-> 하는 이유는 최적화를 더 쉽게 하기 위해서

Function에 대해서 맞추는 것보다 0이라는 숫자 개념으로 잔차를 수렴하게 하는 것이 더 쉬울 것임. ~~why?~~

~~feedforward neural network~~

F(x)+x는 Shortcut Connection과 동일한데

이는 하나 또는 이상의 레이어를 skip하게 해줌. (x를 더해줌)

즉 여기서는 identity mapping으로 shortcut connection이 되게 하면서 skip을 만듬

Identity Short Connection은 추가적인 파라미터도 필요하지 않고

복잡한 곱셈 연산도 필요하지 않는 장점이 있음

그래서 이제부터 실험적인 방법을 통해 degradation 문제를 보이고

이 논문의 방법을 평가하는 것이 나옴

목표는 2가지

1) plain net과 다르게 residual net은 더 쉽게 최적화할 수 있음