https://arxiv.org/pdf/1512.03385.pdf
ResNet์ด๋?
๋ ์ฆ๋ท(Residual Network, ResNet)์ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์. ๋๊ท๋ชจ ์ด๋ฏธ์ง๋ท ๋ฐ์ดํฐ์ธํธ ํ์ตํจ
VGG ๋ชจ๋ธ๊ณผ ํฉ์ฑ๊ณฑ ๊ณ์ธต, ReLU, ํ๋ง, ์์ ์ฐ๊ฒฐ ๊ณ์ธต ๋ฑ์ ์ด์ฉํด ๊ตฌ์ฑํจ.
VGG ๋ชจ๋ธ ๊ฐ์ ๊ฒฝ์ฐ์๋ ๋ ์์ ํฌ๊ธฐ์ ํํฐ๋ฅผ ์ฌ์ฉํด ๊ณ์ฐ ํจ์จ์ฑ์ ํฅ์์์ผฐ์ง๋ง, ๊น์ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ก ์ธํด ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํจ.
๊ทธ๋์ ๋ ์ฆ๋ท์ ์ด๋ฌํ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์
์์ฐจ ์ฐ๊ฒฐ(Residual Connection), ํญ๋ฑ ์ฌ์(Identity Mapping), ์์ฐจ ๋ธ๋ก(Residual Block)์ ํตํด
๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์
๋ ์ฆ๋ท์ ๊ณ์ธต์ ์์ ๋ฐ๋ผ ResNet-18. 34. 50, 101, 152์ ํํ๋ก ์ ๊ณต๋จ
๋ ์ฆ๋ท์ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋
- ์ ๋ ฅ์ธต
- ํฉ์ฑ๊ณฑ ๊ณ์ธต
- ๋ฐฐ์น ์ ๊ทํ ๊ณ์ธต
- ํ์ฑํ ํจ์
- ์์ฐจ ๋ธ๋ก
- ํ๊ท ๊ฐ ํ๋ง ๊ณ์ธต
- ์์ ์ฐ๊ฒฐ ๊ณ์ธต
- ์ถ๋ ฅ์ธต
์ผ๋ก ์ด๋ค์ ธ ์์
๋ ์ฆ๋ท์๋ 34, 50, 101, 152๊ฐ์ ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋ ๋คํธ์ํฌ๊ฐ ์์
๋ชจ๋ธ์ ์์ฐจ ๋ธ๋ก์ ๊ฐ์์ ๋ฐ๋ผ ๊ฒฐ์ ๋จ
๋ ์ฆ๋ท์ ๋ ๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต๊ณผ ๋จ์ถ ์ฐ๊ฒฐ๋ก ์ด๋ค์ ธ ์์
๋จ์ถ ์ฐ๊ฒฐ์ ์ด์ ๊ณ์ธต์ ์ถ๋ ฅ๊ฐ์ ํ์ฌ ๊ณ์ธต์ ์ ๋ ฅ๊ฐ๊ณผ ๋ํด์ฃผ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋จ
(๊ธฐ์กด ์๋ฐฉํฅ ์ ๊ฒฝ๋ง ๋ฐฉ์์ ์ด์ ๊ณ์ธต์ ์ ๋ณด๊ฐ ํ์ฌ ๊ณ์ธต์๋ง ์ํฅ์๋ผ์น ๋ฐ๋ฉด,
๋ ์ฆ๋ท์ ์ด์ ๊ณ์ธต์์ ๋ฐ์ํ ์ ๋ณด๋ฅผ ๋ค์ ๊ณ์ธต์ ์ ๋ฌํจ)
์ด์ ๊ณ์ธต์์ ๋ฐ์ํ ์ ๋ณด๋ฅผ ๊ณ์ ์ ๋ฌํ๋ค๋ฉด
๋ชจ๋ธ์ด ๊น์ด์ง๋๋ผ๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์๊ณ ์ ๋ณด๊ฐ ์์ค๋๋ ํ์์ ๋ฐฉ์งํ ์ ์์.
์ผ๋ฐ์ ์ธ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง์ ํ์ฌ ๊ณ์ธต์์ ์ ๋ณด๊ฐ ์์ค๋๋ฉด ๋ค์ ๊ณ์ธต์์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํจ.
๋ํ ๊ณ์ธต์ด ๋ง์์ ธ ๋ชจ๋ธ์ด ๊น์ด์ง๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ ์ญ์ ํ ๊ณผ์ ์์ ์ ์ฐจ ์์์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ
๋ ์ฆ๋ท์ ๋จ์ถ ์ฐ๊ฒฐ์ ์ด์ ๊ณ์ธต์ ์ถ๋ ฅ๊ฐ์ ํ์ฌ ๊ณ์ธต์ ์ ๋ ฅ๊ฐ๊ณผ ๋ํด
์ด์ ๊ณ์ธต์์ ๋ฐ์ํ ์ ๋ณด๋ฅผ ๊ณ์ ์ ๋ฌํจ
์ด๋ ๊ฒ ๋ํด์ง ๊ธฐ์ธ๊ธฐ๋ ์ผ์ ์์ค ์ด์ ์ ์งํ ์ ์์
๋จ์ถ ์ฐ๊ฒฐ์ ํตํด ๊น์ ๋ชจ๋ธ์์ ๋ฐ์ํ๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ
์ ๋ณด๋ฅผ ์ ์งํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ํน์ ๊ฐ์ค์น์ ์๋ ดํ๋ ์๋๋ฅผ ๋จ์ถ์ํฌ ์ ์์
๊ธฐ์ธ๊ธฐ ์ ํ ๋ฌธ์
๊น์ ๊ตฌ์กฐ์ ๋ชจ๋ธ์ ์ค๊ณํ๋ค๋ฉด๋ ๋ง์ ํน์ง ๋ฒกํฐ๋ฅผ ๊ณ์ฐํ ์ ์์ด,
๊ณ์ธต๋ง๋ค ๋ ์ธ๋ฐํ ์ง์ญ ํน์ง๊ณผ ์ ์ญ ํน์ง์ ๊ตฌ๋ณํ ์ ์๊ฒ ๋๋ค.
์ด๋ ๋ชจ๋ธ์ ํํ๋ ฅ ํฅ์์ผ๋ก ์ด์ด์ง๋ฏ๋ก ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๊ฒ ๋จ
๋ ์ฆ๋ท์ ์ด๋ฌํ ์๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊น์ ๊ณ์ธต์ ์๋ ์คํ์ ์งํํจ
์คํ์์๋ 20๊ฐ์ ๊ณ์ธต๊ณผ 56๊ฐ์ ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋ ๋ ์ฆ๋ท ๋ชจ๋ธ์ ์ฌ์ฉํด ์ ํ๋๋ฅผ ์ธก์ ํด๋ด
์คํ ๊ฒฐ๊ณผ, ์คํ๋ ค 56๊ฐ์ ๊ณ์ธต์ด ์ ํ๋๊ฐ ๋ ๋ฎ๊ฒ ๋์ด
-> ๊ธฐ์ธ๊ธฐ ์ ํ ๋ฌธ์ (Degration problem) : ์ผ์ ์์ค ์ด์์ผ๋ก ๊ณ์ธต์ ๊น๊ฒ ์์ผ๋ฉด ์คํ๋ ค ํ์ต๋์ง ์๋ ํ์
์ด ๋ฌธ์ ๋ ๊ธฐ์ธ๊ธฐ ํญ์ฃผ๋ ๊ธฐ์ธ๊ธฐ ์์ค์ ๋ฌธ์ ๋ก ํด๊ฒฐํ ์ ์์
๋ ์ฆ๋ท์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์ฌ์ด์ ์ฐจ์ด๋ง ํ์ตํด ๊ธฐ์ธ๊ธฐ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํจ
์์ฐจ ํ์ต (Residual Learning)
ํญ๋ฑ ์ฌ์ (Identity Mapping)์ ๋ฑ์ฅ : ๊ธฐ์ธ๊ธฐ ์ ํ์ ์์ธ์ ํ์ ํ๊ธฐ ์ํด ํญ๋ฑ ์ฌ์ ์คํ์ ์งํํจ.
๊ณ์ธต์ด ๊น์ด์ง์๋ก ํ์ต์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์์ ๋ชจ๋ธ์ ๋จผ์ ํ์ตํ ํ
ํญ๋ฑ ์ฌ์์ผ๋ก ์ด๊ธฐํ๋ ๊ณ์ธต์ ์ถ๊ฐํด ๋ชจ๋ธ์ ๊น๊ฒ ๊ตฌ์ฑํจ.
์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋๋ก ์ถ๋ ฅํ๋ ๊ตฌ์กฐ์ด๋ฏ๋ก
์ฑ๋ฅ์ด ํ๋ฝํ์ง ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ์ง๋ง
์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๋์ผํ๊ฒ ์ฃผ์์์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์ธ๊ธฐ ์ ํ ๋ฌธ์ ๊ฐ ๋ฐ์ํจ
์ด๋ฅผ ํตํด ๋จ์ํ ๊ณ์ธต์ ๊น๊ฒ๋ง ๊ตฌ์ฑํ๋๋ผ๋ ๊ธฐ์ธ๊ธฐ ์ ํ๊ฐ ๋ฐ์ํ๋ ๊ฒ์ ํ์ ํจ
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ์ฆ๋ท์์๋ ์์ฐจ ํ์ต (Residual Learning) ๊ธฐ๋ฒ์ ์ ์ฉํจ
์์ฐจ ํ์ต์ด๋ ๋ชจ๋ธ์ด ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์ฌ์ด์ ์ฐจ์ด(Residual)๋ง ํ์ตํ๊ฒ ํ๋ ๋ฐฉ๋ฒ์.
๊ธฐ์กด ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ด์ ๊ณ์ธต์์ ํ์ฑํ๋ ๊ฐ์ ๋ค์ ๊ณ์ธต์ผ๋ก ์ ๋ฌํ๋ค
์ด ๋ฐฉ๋ฒ์ H(x) ๊ฐ์ ์ต์ ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ์งํํ๋ค
๊ทธ๋ฌ๋ ๊ณ์ธต์ด ๊น์ด์ง์๋ก ๊ธฐ์ธ๊ธฐ ์ ํ ๋ฌธ์ ๋ก ์ธํด H(x)๋ฅผ ์ต์ ํํ๊ธฐ ์ด๋ ค์์ง๋ค.
๊ทธ๋ฌ๋ฏ๋ก ๋ ์ฆ๋ท์์๋ H(x)๋ฅผ F(x)+x๋ก ๋ณ๊ฒฝํ๋ค
์ด ๊ตฌ์กฐ๋ฅผ ๋น๋ฉ ๋ธ๋ก(Building Block)์ด๋ผ ํ๋ค
์ด ๊ตฌ์กฐ์์๋ x๋ ํญ๋ฑ ์ฌ์์ด๋ฏ๋ก ์ด์ ๊ณ์ธต์์ ํ์ต๋ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์จ๋ค
๊ทธ๋ฌ๋ฏ๋ก x๋ ์ด๋ฏธ ์ ํด์ง ๊ณ ์ ๊ฐ์ผ๋ก ๋ณผ ์ ์์
ํ์ง๋ง ๋ ์ฆ๋ท์ ์์ฐจ ์ฐ๊ฒฐ์ ํตํด ์ ๋ ฅ๊ฐ x๊ฐ ์ถ๋ ฅ๊ฐ์ ๋ํด์ ธ
์ด์ ๊ณ์ธต์์ ํ์ต๋ ์ ๋ณด๊ฐ ๋ณด์กด๋๊ณ
์๋ก์ด ์ ๋ณด๋ฅผ ์ถ๊ฐํ ์ ์์
์ด๋ฅผ ํตํด ๋ ์ฆ๋ท์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฐจ์ด๋ฅผ ํ์ตํ ์ ์์ผ๋ฉฐ
ํ์ต ๋ฅ๋ ฅ์ด ํฅ์๋๋ค
์์ฐจ ์ฐ๊ฒฐ
์์ฐจ ์ฐ๊ฒฐ(Residual Connection)์ด๋ ์คํต ์ฐ๊ฒฐ(Skip Connection), ๋จ์ถ ์ฐ๊ฒฐ(Shortcut Connection)์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ
์ ๋ ฅ๊ฐ์ด ์ ๊ฒฝ๋ง ๊ณ์ธต์ ํต๊ณผํ ํ ์ถ๋ ฅ๊ฐ์ ๋ํด์ง๋ ์ฐ๊ฒฐ์ ์๋ฏธํจ
์ผ๋ฐ์ ์ธ ๋ฅ๋ฌ๋ ์ ๊ฒฝ๋ง์์๋ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ง์ ์ฐ๊ฒฐํ์ฌ ์ ๋ณด๋ฅผ ์ ๋ฌํจ
์ด ๊ฒฝ์ฐ ๋คํธ์ํฌ๊ฐ ๊น์ด์ง์๋ก ์ ์ถ๋ ฅ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด์ ธ ์ ๋ณด์ ์์ค ๊ฐ๋ฅ์ฑ์ด ๋์์ง
๋ถ์์ ๊ณก์ ์ด ์์ฐจ ์ฐ๊ฒฐ์ ์๋ฏธํ๋ ๊ฒ์
์ด ์ฐ๊ฒฐ์ ํตํด ์ ๋ ฅ๊ฐ๊ณผ ์ถ๋ ฅ๊ฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์ค์ด๋ค์ด ํ์ต์ด ์์ํด์ง
์ ๋ณด์ ์์ค์ด ์ค์ด๋ค์ด ๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์
์์ฐจ ์ฐ๊ฒฐ ์์
๋ ์ฆ๋ท์์ ์์ฐจ ์ฐ๊ฒฐ์ ๋ง์ ์ฐ์ฐ์ผ๋ก ๋ง๋ค์ด์ง
๊ทธ๋ฌ๋ฏ๋ก ๋ค์ ๊ณ์ธต์์ F(x)+x์ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์ด
x๋ ์ด์ ๊ณ์ธต์ ์ถ๋ ฅ๊ฐ์ด๋ฉฐ
Wi๋ ํ์ฌ ๊ณ์ธต์ ์๋ฏธ
์ด๋ F์ ์ถ๋ ฅ๊ฐ๊ณผ x์ ์ฐจ์์ด ๋์ผํ๋ค๋ฉด ๋ง์ ์ฐ์ฐ์ด ๊ฐ๋ฅํจ
F์ ์ถ๋ ฅ๊ฐ๊ณผ x์ ์ฐจ์์ด ๋์ผํ์ง ์์ผ๋ฉด 8.2 ์ ๊ฐ์ด ์ฒ๋ฆฌํจ
Ws๋ F์ ์ถ๋ ฅ๊ฐ์ ์ฐจ์์ ๋ง์ถ๊ธฐ ์ํด x์ ์ ์ฉํ๋ ๊ฐ์ค์น ํ๋ ฌ์
์๋ ๊ณ์ฐ ๋ถ๋ถ ์ดํด ์ ๊ฐ
๋ ์ฆ๋ท์ ์์ ๊ทธ๋ฆผ 8.6์ฒ๋ผ ๊ธฐ๋ณธ์ ์ผ๋ก 2๊ฐ์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ด ์ฐ๊ฒฐ๋์ด ๋น๋ฉ ๋ธ๋ก์ ๊ตฌ์ฑํจ
ํ์ง๋ง ๋ ๊น์ ๊ตฌ์กฐ๋ก ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ฉด ์ฐ์ฐ๋์ด ๋์ด๋ ํ์ต์ ์ด๋ ค์์ ๊ฒช์
~ (CNN๋ ๋ฐ ๊ตฌ์กฐ ๋ฐ ์๋ ์๋ฆฌ ๋ค์ ์ ๋ฆฌํ๊ณ ๋์์ค๊ธฐ)
๋ชจ๋ธ ๊ตฌํ
class BasicBlock(nn.Module) : BasicBlock์ด๋ผ๋ ํด๋์ค๋ฅผ ์ ์ํจ
์ด ํด๋์ค๋ nn.Module์์ ์์๋จ.
PyTorch์์๋ ์ฌ์ฉ์ ์ง์ ์ ๊ฒฝ๋ง ๋ ์ด์ด๋ ์ํคํ ์ฒ๋ฅผ ๋ง๋ค๋ ค๋ฉด nn.Module์ ์์ํด์ผ ํจ
expansion = 1
ResNet๊ณผ ๊ฐ์ ์ํคํ ์ฒ์์ expansion์ด๋ผ๋ ์ฉ์ด๋ ์ ๋ ฅ๊ณผ ๋น๊ตํ์ ๋ ์ฑ๋ ์๊ฐ ์ผ๋ง๋ ์ฆ๊ฐํ๋์ง๋ฅผ ๋ํ๋.
์ฌ๊ธฐ์ expansion์ด 1๋ก ์ค์ ๋์ด ์์ผ๋ฏ๋ก ์ ๋ ฅ๊ณผ ๋์ผํ ์ฑ๋ ์๋ฅผ ์ ์งํจ์ ์๋ฏธํจ
def __init__(self, inplanes, planes, stride=1) : ์ด๋ BasicBlock ํด๋์ค์ ์์ฑ์ ๋ฉ์๋์. ํด๋์ค์ ์ธ์คํด์ค ๋ณ์๋ฅผ ์ด๊ธฐํํจ
- inplanes๋ ์ ๋ ฅ ์ฑ๋์ ์
- planes๋ ์ถ๋ ฅ ์ฑ๋์ ์ (ํฉ์ฑ๊ณฑ ๋ ์ด์ด์์์ ํํฐ ๋๋ ์ปค๋ ์)
- stride๋ ํฉ์ฑ๊ณฑ ๋ ์ด์ด์์ ์ฌ์ฉ๋๋ ๋ณดํญ์. ๊ธฐ๋ณธ๊ฐ์ 1๋ก ์ค์ ํจ
super().__init__() : ๋ถ๋ชจ ํด๋์ค์ ์์ฑ์ (nn.Module)๋ฅผ ํธ์ถํ์ฌ BasicBlock ํด๋์ค๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ด๊ธฐํํจ
์ฝ๋๋ฅผ ๋ณด๋ค๋ณด๋ ์ ๋๋ก ์ดํดํ๊ธฐ ์ํด์๋ ResNet์ ๊ตฌ์กฐ์ ๊ณ์ธต๋ค์ ๋ํด์ ์ ํ์๊ฐ ์์
์ด๋ ๊ธฐ๋ณธ์ ์ธ ๋ฅ๋ฌ๋ CNN ํํธ ๋ด์ฉ๋ค์
๋ค์ ํ๋ฒ ๋ด๋ณด๊ฒ ์
๋ ผ๋ฌธ ๋ด์ฉ
Abstract
์ ๊ฒฝ๋ง์ ๊น์ด์ง์๋ก ํ์ต์ํค๋๊ฒ ์ด๋ ต๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์์ฐจ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํด์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค. ์์ฐจ ํ์ต์ ์ฌ์ฉํจ์ผ๋ก์จ ๋ ํผ๋ฐ์ค๊ฐ ์กด์ฌํ๋ ์ธํ์ ๋ ์ด์ด์ ์์ฐจ ํ์ต ํจ์์ ์ง์ด๋ฃ์์ผ๋ก์จ ๊ณ์ธต์ ์ฌ๊ตฌ์ฑํ๋ดค๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์คํ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์์ฐจ ๋คํธ์ํฌ๊ฐ ์ ๊ทํํ๊ธฐ ๋ ์ฝ๊ณ , ๋ ๊น์ ๊น์ด์์ ์๋์ ์ผ๋ก ๋ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. - ์ดํ ์คํ ๊ฒฐ๊ณผ ํตํ ์๋ ์๋ต..ใ -
Introduction
๊น์ ์ ๊ฒฝ๋ง์ image classification์ด๋ ์ฌ์ํ visual recognition ์ผ๋ค์ ์ฒ๋ฆฌํ๋๋ฐ ๋์์ ์ฃผ๊ณ ์๋ค.
Deep networks naturally integrate low/mid/higher level features and classifiers in an end-to-end multilayer fashion, and the "levels" of features can be enriched by the number of stacked layers(depth)
๋ฌธ์ ์ ๊ธฐ : ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ ์ด์ด๋ฅผ ๊น์ด ์์ผ๋ฉด ํญ์ ์ฑ๋ฅ์ด ์ข์์ง๋๊ฑธ๊น?
ํ์ง๋ง ์ด ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํด์๋ gradient vanishing/exploding ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ผํ๋ค.
๋คํ์ด๋ ์ด ๋ฌธ์ ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ค๋ก ๊ฐ์ ๋์ด์๋ค.
(by normalized initialization and intermediate normalization layers, which enable networks with tens of layers to start converging for stochastic gradient descent(SGD) with back-propagation.)
์์ ๋ฌธ์ ์ ๊ธฐ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๊ณ์ ์ธ๊ธ๋๋ ๋ฌธ์ ๋ Degradation problem์ด๋ค.
์ด๋ ์ค๋ฒํผํ ๋ฌธ์ ๋ ์๋๋ค.
์๋ํ๋ฉด ์ค๋ฒํผํ ๋ฌธ์ ์ผ ๊ฒฝ์ฐ, train accuracy๋ ๋๊ณ test accuracy๋ ๋ฎ์์ผํ๋๋ฐ,
์ด ๊ฒฝ์ฐ์๋ ๋ accuracy๊ฐ ๋ชจ๋ ๋ฎ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ํ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋ ์ด์ด๋ฅผ ๊น์ด ์์์ ๋ ์ต์ ํ๊ฐ ์ ์๋๊ธฐ ๋๋ฌธ์ด๋ค.
Degradation(of training accuracy)๋ฅผ ํตํด์ ์ฐ๋ฆฌ๋ ๋ชจ๋ ์์คํ ์ด ๋ชจ๋ Optimizeํ๊ธฐ ์ฌ์ด ๊ฒ์ด ์๋๊ตฌ๋๋ฅผ ์ ์ ์๋ค.
(์ด ๋ ผ๋ฌธ์์๋ ์ด degradation ๋ฌธ์ ๋ฅผ ๋ ๊น์ ๋ ์ด์ด๊ฐ ์์ผ ์๋ก optimize๊ฐ ๋ณต์กํด์ง๊ธฐ ๋๋ฌธ์ ์ผ์ด๋๋ ๋ถ์์ฉ์ด๋ผ๊ณ ์๊ฐํ๊ณ ์ด๋ฅผ ํด๊ฒฐํด๋ณด๊ณ ์ ํ๋ ๊ฒ์ด๋ค)
์ด๋ฅผ ์คํํ๊ธฐ ์ํด ์์ ์ํคํ ์ฒ์ ๋ ๊น์ ์ํคํ ์ฒ๋ฅผ ๋น๊ตํด๋ณด๋ ค๊ณ ํ๋ค.
์ฌ๊ธฐ์ ๋ ๊น์ ์ํคํ ์ฒ๋ ์์ ์ํคํ ์ฒ์ identity mapping์ ํตํด ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ ๊ฒ์ด๋ค.
identity mapping์ ํ๊ธฐ ๋๋ฌธ์ ์์ ์ํคํ ์ฒ์ ๊ฐ์ training error๋ฅผ ๋ณด์ฌ์ผํ๋ค๊ณ ์๊ฐ๋์ง๋ง
์ด๋ ๊ทธ๋ฅ ์ข์ ํด๊ฒฐ์ฑ ์ ์๋์๋ค.
๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ deep residual learning framework๋ฅผ ์๊ฐํ๋ค.
Instead of hoping each few stacked layers directly fit a desired underlying mapping,
we explicitly let these layers fit a residual mapping.
Formally, denoting the desired underlying mapping as H(x), we let the stacked nonlinear layers fit another mapping of F(x) := H(x)−x. The original mapping is recast into F(x)+x. We hypothesize that it is easier to optimize the residual mapping than to optimize the original, unreferenced mapping. To the extreme, if an identity mapping were optimal, it would be easier to push the residual to zero than to fit an identity mapping by a stack of nonlinear layers.
๊ณต์์ ์ผ๋ก ์ํ๋ ๊ธฐ๋ณธ ๋งคํ์ H(x)๋ก ํ์ํ๊ณ , ์คํ๋ ๋น์ ํ ๋ ์ด์ด๋ฅผ F(x) := H(x)-x์ ๋ค๋ฅธ ๋งคํ์ ๋ง์ถ๋๋ก ํฉ๋๋ค. ์๋ ๋งคํ์ F(x)+x๋ก ๋ค์ ์บ์คํ ๋ฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ฐธ์กฐ๋์ง ์์ ์๋ณธ ๋งคํ์ ์ต์ ํํ๋ ๊ฒ๋ณด๋ค ์์ฌ ๋งคํ์ ์ต์ ํํ๋ ๊ฒ์ด ๋ ์ฝ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ๊ทน๋จ์ ์ผ๋ก ๋งํ์๋ฉด, ์์ด๋ดํฐํฐ ๋งคํ์ด ์ต์ ์ด๋ผ๋ฉด ๋น์ ํ ๋ ์ด์ด ์คํ์ผ๋ก ์์ด๋ดํฐํฐ ๋งคํ์ ๋ง์ถ๋ ๊ฒ๋ณด๋ค ์์ฌ๋ฅผ 0์ผ๋ก ๋ฐ์ด๋ถ์ด๋ ๊ฒ์ด ๋ ์ฌ์ธ ๊ฒ์ ๋๋ค.
-> ํ๋ ์ด์ ๋ ์ต์ ํ๋ฅผ ๋ ์ฝ๊ฒ ํ๊ธฐ ์ํด์
Function์ ๋ํด์ ๋ง์ถ๋ ๊ฒ๋ณด๋ค 0์ด๋ผ๋ ์ซ์ ๊ฐ๋
์ผ๋ก ์์ฐจ๋ฅผ ์๋ ดํ๊ฒ ํ๋ ๊ฒ์ด ๋ ์ฌ์ธ ๊ฒ์. why?
feedforward neural network
F(x)+x๋ Shortcut Connection๊ณผ ๋์ผํ๋ฐ
์ด๋ ํ๋ ๋๋ ์ด์์ ๋ ์ด์ด๋ฅผ skipํ๊ฒ ํด์ค. (x๋ฅผ ๋ํด์ค)
์ฆ ์ฌ๊ธฐ์๋ identity mapping์ผ๋ก shortcut connection์ด ๋๊ฒ ํ๋ฉด์ skip์ ๋ง๋ฌ
Identity Short Connection์ ์ถ๊ฐ์ ์ธ ํ๋ผ๋ฏธํฐ๋ ํ์ํ์ง ์๊ณ
๋ณต์กํ ๊ณฑ์ ์ฐ์ฐ๋ ํ์ํ์ง ์๋ ์ฅ์ ์ด ์์
๊ทธ๋์ ์ด์ ๋ถํฐ ์คํ์ ์ธ ๋ฐฉ๋ฒ์ ํตํด degradation ๋ฌธ์ ๋ฅผ ๋ณด์ด๊ณ
์ด ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ ํ๊ฐํ๋ ๊ฒ์ด ๋์ด
๋ชฉํ๋ 2๊ฐ์ง
1) plain net๊ณผ ๋ค๋ฅด๊ฒ residual net์ ๋ ์ฝ๊ฒ ์ต์ ํํ ์ ์์
2) residual net์ด ๋ ์ฝ๊ฒ ์ ํ๋๋ฅผ ๋์ธ ๊ฒ์ผ๋ก ๋ณด์
Related Work
Residual Representation
Shortcut Connections
Deep Residual Learning
Residual Learning
Identity Mapping by Shortcut
Network Architectrues
Implementation
https://ganghee-lee.tistory.com/41
https://www.youtube.com/watch?v=vRtM4K8e_Q4
https://www.youtube.com/watch?v=GWt6Fu05voI
https://www.youtube.com/watch?v=o_3mboe1jYI&t=86s
https://www.youtube.com/watch?v=iadEDPoEME8
https://www.youtube.com/watch?v=Hi9WasDwU2U
https://www.youtube.com/watch?v=c9aEBKYnkbo
https://www.youtube.com/watch?v=671BsKl8d0E&t=373s
https://www.youtube.com/watch?v=Fh3vxJNoREA