๋ ผ๋ฌธ ์์ฑ ๋ฐฐ๊ฒฝ
์์ฐ์ด์ฒ๋ฆฌ์์๋ ์ด์ RNN์ ์ฌ์ฉํ์ง ์๊ณ transformer๊ฐ NLP์ ํ์ค์ด๋ผ๊ณ ํ ์ ๋๋ก ์๋ฆฌ๊ฐ ์กํ ์ค์ํ ๋ชจ๋ธ์ด๋ค.
์ด๋ฅผ ์ปดํจํฐ ๋น์ ์ Image Classification์ ์ ์ฉ์ ํด๋ณด๊ธฐ ์ํด ๋ง์ ๋ ธ๋ ฅ๋ค์ด ์์์ง๋ง,
์ฌ์ ํ CNN ๋ชจ๋ธ์ ์์กด์ ์ธ ๋ชจ๋ธ๋ค์ด ๋ง์ด ๋์๊ณ
์๋ฒฝํ๊ฒ transformer๋ง ์ฌ์ฉํ ๋ชจ๋ธ๋ค์ ์ด๋ก ์ ์ผ๋ก๋ ํจ์จ์ ์ด๊ฒ ์ง๋ง,
specialized attention pattern๋ค์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์
์ต์ ํ๋์จ์ด ๊ฐ์๊ธฐ์์๋ ์์ง ํจ๊ณผ์ ์ผ๋ก ํ์ฅ๋์ง ์์๋ค.
๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ CNN ๊ตฌ์กฐ๋ฅผ ๋ฒ๋ฆฐ, ์จ์ ํ transformer๋ง ์ฌ์ฉํ์ฌ
Image Classificationํ ์ ์๋๋ก ViT(Vision Transformer) ๋ชจ๋ธ์ด ๋์ด
๋ ผ๋ฌธ ๋ชจ๋ธ ๊ตฌ์กฐ
๋ ผ๋ฌธ ๋ด์ฉ ๊ตฌ์ฑ
Abstract
์์ฐ์ด์ฒ๋ฆฌ์์์ transformer๋ ์ฌ์ค์ ํ์ค์ผ๋ก ์๋ฆฌ ์ก์๋ค.
ํ์ง๋ง ์ปดํจํฐ ๋น์ ์์์ transformer๋ CNN๊ณผ ํจ๊ป ์ฌ์ฉ๋๊ฑฐ๋, CNN์ ๊ตฌ์กฐ๋ ๊ฐ๊ณ ๊ฐ๋ ํน์ ๋ถ๋ถ์ ๋์ฒดํ์ฌ ์ฌ์ฉ๋๋ ์ ๋๋ก ์๋ฆฌ์ก๊ณ ์์๋ค.
์ด ๋ ผ๋ฌธ์์๋ Image Classification์ ์ํด CNN์ ์์กดํ์ง ์๊ณ ์จ์ ํ transformer๋ง ์ฌ์ฉํ์ฌ ์ข์ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์์์ ๋ณด์ฌ์ค๋ค.
Introduction
NLP์ transformer์ฒ๋ผ ์ต์ํ์ modification ์์ด ์ด๋ฏธ์ง์ ์ง์ ์ ์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ transformer๋ฅผ ๋ง๋ค๊ธฐ ์ํด์
์ฃผ์ด์ง ์ด๋ฏธ์ง๋ฅผ patch๋ค๋ก ์ชผ๊ฐ ํ transformer์ ์ ๋ ฅ์ ๋ค์ด๊ฐ linear embedding๋ค์ ์์(sequence)๋ฅผ ์ ๊ณตํ๋ค.
(์ฌ๊ธฐ์ ์ด๋ฏธ์ง patch๋ค์ NLP์์์ ํ ํฐ๊ณผ ๊ฐ์ ๊ฐ๋ ์)
When trained on mid-sized datasets such as ImageNet without strong regularization, these models yield modest accuracies of a few percentage points below ResNets of comparable size. This seemingly discouraging outcome may be expected: Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trained on insufficient amounts of data.
๊ฐ๋ ฅํ ์ ๊ทํ ์์ด ImageNet๊ณผ ๊ฐ์ ์ค๊ฐ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ํ์ตํ ๊ฒฝ์ฐ, ์ด๋ฌํ ๋ชจ๋ธ์ ๋น์ทํ ํฌ๊ธฐ์ ResNet๋ณด๋ค ๋ช ํผ์ผํธ ํฌ์ธํธ ๋ฎ์ ์์ค์ ์ ํ๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ์ค๋ง์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ ์์ํ ์ ์๋ ๊ฒฐ๊ณผ์
๋๋ค: ํธ๋์คํฌ๋จธ๋ ๋ฒ์ญ ๋๋ฑ์ฑ ๋ฐ ์ง์ญ์ฑ๊ณผ ๊ฐ์ CNN ๊ณ ์ ์ ๊ท๋ฉ์ ํธํฅ์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ ๋ถ์ถฉ๋ถํ ์์ ๋ฐ์ดํฐ๋ก ํ๋ จํ ๊ฒฝ์ฐ ์ผ๋ฐํ๊ฐ ์ ์ด๋ฃจ์ด์ง์ง ์์ต๋๋ค.
ํ์ง๋ง 14M-300M์ ์ด๋ฏธ์ง ์ ๋ ํฌ๊ธฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ ๊ท๋ฉ์ ํธํฅ์ ๋ถ์กฑ์ ๋ฐ์ด๋์ด ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Related Work
Method
1. Vision Transformer(ViT)
2. Fine-Tuning and Higher Resolution
Experiments
1. Setup
2. Comparison to State of the Art
3. Pre-training Data Requirements
4. Scaling Study
5. Inspecting Vision Transformer
6. Self-Supervision
Conclusion