๐๐ช๐ฝ๐ฎ๐ฐ๐ธ๐ป๐26 Blog Update ํญ์ ์์ฐฌ ๋ง์์ผ๋ก ๊ธ์ฐ๊ธฐ๋ฅผ ์์ํ๋ค๊ฐ ๋ง๋ฌด๋ฆฌํ์ง ๋ชปํ๊ณ ํ์ง๋ถ์ง ๋๋ธ ๊ธ๋ค์ด ๋๋ค์์ธ ๊ฒ ๊ฐ๋ค.. ์ข ๊ฐํ๊ณ ๋์๋ ๊ณต๋ถํ ๋ด์ฉ๋ค์ ๋ธ๋ก๊ทธ์ ์ ๋๋ก ์ ๋ฆฌํด๋์ํ์ํ ๋ ๊ธ๋ฐฉ ๋ฆฌ๋ง์ธ๋ ํ ์ ์๊ฒ ํด๋์ผ๊ฒ ๋ค..:) ๊ทธ๋ฐ ์๋ฏธ์์.. ๋ ์ผ๋ ์ข ๊ฐ์์ผ์คใ ใ ใ ใ 2024. 6. 14. [Overview] Image Formation Image Formation : Projection of 3D scene onto 2D plane : scene๊ณผ image๊ฐ์ geometric and photometric relation์ ๋ํด์ ์ดํดํ ํ์๊ฐ ์์ - geometric : scene์ ํ point๊ฐ ์์ ๋, image์ ์ด๋ป๊ฒ ํํ๋๋์ง์ ๊ด์ - photometric : scene์ brightness์ apearance๊ฐ image์์๋ ์ด๋ป๊ฒ ํํ๋๋์ง์ ๊ด์ Topics : (1) Pinhole and Perspective Projection - ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋, ์ญ์ฌ๊ฐ ๊ธด pinhole ์นด๋ฉ๋ผ์ ๋ํด์ ์์๋ณด๊ฒ ์ - ๋ฌผ๋ก ์ฅ์ ๋ ๋ง์ ์นด๋ฉ๋ผ์ด์ง๋ง (can produce great clarity) ๋น์ ๋ชจ์ผ๋๋ฐ ๋ฌธ์ ๊ฐ .. 2024. 4. 6. [๋ ผ๋ฌธ ๋ฐํ] NeRF : Representing Scenes as Neural Radiance Fields for View Synthesis ์ด๋ฒ์ NeRF ๋ ผ๋ฌธ์ ์ฝ์๋๋ฐ์, ๊ฐ๋ตํ๊ฒ NeRF์ ๋ํด์ ์ค๋ช ํ ๋ค์์ ๊ตฌ์ฒด์ ์ผ๋ก NeRF์ ์ํคํ ์ฒ์ ๊ตฌํ ๋ฐฉ๋ฒ์ ๋ํด์ ๋ฐํํด๋ณด๊ฒ ์ต๋๋ค. NeRF๋ Neural Radiance Field์ ์ฝ์์ ๋๋ค. ์ ๋ชฉ์์๋ View Synthesis๋ฅผ ํ๊ธฐ ์ํด์ NeRF๋ฅผ ์ฌ์ฉํ๊ณ ์ ํ๋ค๋๋ฐ์, ์ฌ๊ธฐ์ view synthesis๋ผ๋ ๊ฒ์ ์ฌ๋ฌ view์์ ์ฐ์ ์ด๋ค ๊ฐ์ฒด์ ์ฌ์ง์ ํ์ต ์์ผฐ์ ๋ ๊ฐ์ฒด๋ฅผ ์๋ก์ด view์์ ๋ฐ๋ผ๋ณด์์ ๋์ ๋ชจ์ต์ ์์๋ด๋ ์์ ์ ๋๋ค. ์์ ์ฐ๊ตฌ์์๋ ์ด view synthesis ์์ ์ด ์ฑ๋ฅ์ด ์ข์ง ์๊ฒ ๋์ค๊ฑฐ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ ์๊ตฌํด ๋๋ฌด ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ํ๋ ์ด๋ ค์์ด ์์์ต๋๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ์๋ก์ด ๋ฐฉ์์ธ "NeRF"๋ฅผ ์ ์ํ๊ฑด๋ฐ.. 2024. 3. 13. Lecture 2. Image Classification Image Classification What is Image Classification? Example : Input : ๊ณ ์์ด ์ฌ์ง ์ปดํจํฐ๋ ์ฌ์ ์ ์ ํด์ง label๋ค์ ์งํฉ์(predetermined set of labels) ๊ฐ์ง๊ณ , input๊ฐ๊ณผ ์ผ์นํ๋ label๊ฐ์ output์ผ๋ก ์ถ๋ ฅํ๋๋ก ๊ณ์ฐํ๋ค. Output : Cat Semantic Gap (์๋ฏธ์ ์ฐจ์ด) ์ ์ : ์ค์ ์ด๋ฏธ์ง๊ฐ ๊ฐ๊ณ ์๋ ์๋ฏธ์ ์ปดํจํฐ๊ฐ ๋ณด๋ ํฝ์ ๊ฐ ์๋ฏธ์ ์ฐจ์ด ์ฐ๋ฆฌ๋ ์ฝ๊ฒ ๊ณ ์์ด๋ฅผ ๋ณด๊ณ "๊ณ ์์ด"์์ ๋ถ๋ฅํ ์ ์์ง๋ง, ์ปดํจํฐ์ ๊ฒฝ์ฐ์๋ ํ๋์ image๊ฐ ๊ฑฐ๋ํ ์ซ์ ๊ทธ๋ฆฌ๋(gigantic grid of numbers)๋ก ๋ณด์ด๊ธฐ ๋๋ฌธ์ ๊ณ ์์ด๋ฅผ ๋ฐ๋ก ์ฐ์ํ ์ ์๋ ๊ฒ์ด๋ค. Challenges : Viewpoin.. 2024. 2. 16. Lecture 13. Generative Models Overview - Unsupervised Learning - Generative Models PixelRNN and PixelCNN Variational Autoencoders (VAE) Generative Adversarial Networks (GAN) Classification : Input : Image Output : Text (Label) Object Detection : Input : Image Output : Bounding Boxes of instances Semantic Segmentation (having label for every pixel) : ? Image Captioning : Input : Image Output : Caption (form of natural languag.. 2024. 2. 13. [๋ ผ๋ฌธ ์คํฐ๋] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT) ๋ ผ๋ฌธ ์์ฑ ๋ฐฐ๊ฒฝ ์์ฐ์ด์ฒ๋ฆฌ์์๋ ์ด์ RNN์ ์ฌ์ฉํ์ง ์๊ณ transformer๊ฐ NLP์ ํ์ค์ด๋ผ๊ณ ํ ์ ๋๋ก ์๋ฆฌ๊ฐ ์กํ ์ค์ํ ๋ชจ๋ธ์ด๋ค. ์ด๋ฅผ ์ปดํจํฐ ๋น์ ์ Image Classification์ ์ ์ฉ์ ํด๋ณด๊ธฐ ์ํด ๋ง์ ๋ ธ๋ ฅ๋ค์ด ์์์ง๋ง, ์ฌ์ ํ CNN ๋ชจ๋ธ์ ์์กด์ ์ธ ๋ชจ๋ธ๋ค์ด ๋ง์ด ๋์๊ณ ์๋ฒฝํ๊ฒ transformer๋ง ์ฌ์ฉํ ๋ชจ๋ธ๋ค์ ์ด๋ก ์ ์ผ๋ก๋ ํจ์จ์ ์ด๊ฒ ์ง๋ง, specialized attention pattern๋ค์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ต์ ํ๋์จ์ด ๊ฐ์๊ธฐ์์๋ ์์ง ํจ๊ณผ์ ์ผ๋ก ํ์ฅ๋์ง ์์๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ CNN ๊ตฌ์กฐ๋ฅผ ๋ฒ๋ฆฐ, ์จ์ ํ transformer๋ง ์ฌ์ฉํ์ฌ Image Classificationํ ์ ์๋๋ก ViT(Vision Transformer) ๋ชจ๋ธ์ด ๋์ด ๋ ผ๋ฌธ ๋ชจ๋ธ ๊ตฌ.. 2024. 2. 9. ์ด์ 1 2 3 4 5 ๋ค์