Lecture 2. Image Classification

Image Classification

Example :
- Input : 고양이 사진
- 컴퓨터는 사전에 정해진 label들의 집합을(predetermined set of labels) 가지고, input값과 일치하는 label값을 output으로 출력하도록 계산한다.
- Output : Cat

정의 : 실제 이미지가 갖고 있는 의미와 컴퓨터가 보는 픽셀값 의미의 차이
- 우리는 쉽게 고양이를 보고 "고양이"임을 분류할 수 있지만, 컴퓨터의 경우에는 하나의 image가 거대한 숫자 그리드(gigantic grid of numbers)로 보이기 때문에 고양이를 바로 연상할 수 없는 것이다.
Challenges : Viewpoint variations (바로보는 관점에서의 차이 인식), Illumination (빛의 반사에 의한 차이 인식), Deformation, Occlusion, Background and Clutter, Intraclass variations
- 하지만 현재의 컴퓨터는 인간 수준의 정확도로 제한된 상황 속에서 빠르게 사물을 판단할 수 있음! → HOW??

Image Classification을 하기 위해서 어떤 API를 만들어볼 수 있을까? 고민하게 될 것이다.
뭔가 image를 input하고 중간에 마법 같은 코드를 만들어서 class_label을 return 받고 싶을 것이지만..
보통 일이 주어져서 순차적으로 알고리즘을 만들어 나가는 것과 다르게.. 이걸 어떻게 코드를 짜야 잘 짰다고 소문이 날지 도저히 감이 잡히지 않을 것이다..

그래도 일단 한 가지의 방법을 떠올려보자면! 고양이를 인식할 수 있는 규칙(rule)을 만들어 볼 수도 있을 것이다.
- 고양이에게는 눈, 귀, 입, 코 등이 있음
- visual recognition에는 edge들이 중요한 것을 앎
  - 형체와 edge에 맞게 corner와 boundaries가 있음을 인식하고 규칙을 세워봄
  - 하지만 이 방법은 1. super brittle 2. 모든 object category마다 규칙을 만들어줘야함 (좋지 않은 방법..)

1. Collect a dataset of images and labels

2. Use Machine Learning to train a classifier

3. Evaluate the classifier on new images

So, in this example, the image is 800 by 600 pixels

And each pixel is represented by three numbers,

giving the red, green, and blue values for that pixels.

Lecture 13. Generative Models (0)	2024.02.13