[논문 스터디] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)

논문 생성 배경

자연어처리에서는 이제 RNN을 사용하지 않고 transformer가 NLP의 표준이라고 할 정도로 자리가 잡힌 중요한 모델이다.

이를 컴퓨터 비전의 Image Classification에 적용을 해보기 위해 많은 노력들이 있었지만,

여전히 CNN 모델에 의존적인 모델들이 많이 나왔고

완벽하게 transformer만 사용한 모델들은 이론적으로는 효율적이겠지만,

~~specialized attention pattern~~들을 사용하기 때문에

최신 하드웨어 가속기에서는 아직 효과적으로 확장되지 않았다.

그래서 이 논문에서는 CNN 구조를 버린, 온전히 transformer만 사용하여

Image Classification할 수 있도록 ViT(Vision Transformer) 모델이 나옴

논문 모델 구조

논문 내용 구성

Abstract

자연어처리에서의 transformer는 사실상 표준으로 자리 잡았다.

하지만 컴퓨터 비전에서의 transformer는 CNN과 함께 사용되거나, CNN의 구조는 갖고 가되 특정 부분을 대체하여 사용되는 정도로 자리잡고 있었다.

이 논문에서는 Image Classification을 위해 CNN에 의존하지 않고 온전히 transformer만 사용하여 좋은 성과를 낼 수 있음을 보여준다.

Introduction

NLP의 transformer처럼 최소한의 modification 없이 이미지에 직접적으로 사용될 수 있는 transformer를 만들기 위해서

주어진 이미지를 patch들로 쪼갠 후 transformer의 입력에 들어갈 linear embedding들의 순서(sequence)를 제공한다.

(여기서 이미지 patch들은 NLP에서의 토큰과 같은 개념임)

When trained on mid-sized datasets such as ImageNet without strong regularization, these models yield modest accuracies of a few percentage points below ResNets of comparable size. This seemingly discouraging outcome may be expected: Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trained on insufficient amounts of data.

강력한 정규화 없이 ImageNet과 같은 중간 크기의 데이터 세트에 대해 학습한 경우, 이러한 모델은 비슷한 크기의 ResNet보다 몇 퍼센트 포인트 낮은 수준의 정확도를 제공합니다. 이러한 실망스러운 결과는 예상할 수 있는 결과입니다: 트랜스포머는 번역 동등성 및 지역성과 같은 CNN 고유의 귀납적 편향이 부족하기 때문에 불충분한 양의 데이터로 훈련할 경우 일반화가 잘 이루어지지 않습니다.

하지만 14M-300M의 이미지 정도 크기의 대규모 데이터셋의 경우 귀납적 편향의 부족을 뛰어넘어 좋은 결과를 보이는 것을 확인할 수 있다.

Related Work

Method

1. Vision Transformer(ViT)

2. Fine-Tuning and Higher Resolution

Experiments

1. Setup

2. Comparison to State of the Art

3. Pre-training Data Requirements

4. Scaling Study

5. Inspecting Vision Transformer

6. Self-Supervision

Conclusion

𝒄𝒐𝒅𝒊𝒏𝒈𝑺𝒐𝒉𝒚𝒖𝒏