์ด๋ฒ์ NeRF ๋ ผ๋ฌธ์ ์ฝ์๋๋ฐ์,
๊ฐ๋ตํ๊ฒ NeRF์ ๋ํด์ ์ค๋ช ํ ๋ค์์
๊ตฌ์ฒด์ ์ผ๋ก NeRF์ ์ํคํ ์ฒ์ ๊ตฌํ ๋ฐฉ๋ฒ์ ๋ํด์ ๋ฐํํด๋ณด๊ฒ ์ต๋๋ค.
NeRF๋ Neural Radiance Field์ ์ฝ์์ ๋๋ค.
์ ๋ชฉ์์๋ View Synthesis๋ฅผ ํ๊ธฐ ์ํด์ NeRF๋ฅผ ์ฌ์ฉํ๊ณ ์ ํ๋ค๋๋ฐ์,
์ฌ๊ธฐ์ view synthesis๋ผ๋ ๊ฒ์
์ฌ๋ฌ view์์ ์ฐ์ ์ด๋ค ๊ฐ์ฒด์ ์ฌ์ง์ ํ์ต ์์ผฐ์ ๋
๊ฐ์ฒด๋ฅผ ์๋ก์ด view์์ ๋ฐ๋ผ๋ณด์์ ๋์ ๋ชจ์ต์ ์์๋ด๋ ์์ ์ ๋๋ค.
์์ ์ฐ๊ตฌ์์๋ ์ด view synthesis ์์ ์ด ์ฑ๋ฅ์ด ์ข์ง ์๊ฒ ๋์ค๊ฑฐ๋
๋ง์ ๋ฐ์ดํฐ์ ์ ์๊ตฌํด ๋๋ฌด ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ํ๋ ์ด๋ ค์์ด ์์์ต๋๋ค.
๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ์๋ก์ด ๋ฐฉ์์ธ "NeRF"๋ฅผ ์ ์ํ๊ฑด๋ฐ์.
๊ทธ๋์ ์ฌ๊ธฐ ๋๋ผ์ธํธ์ ์์๋ฅผ ํ๋ฒ ๋ณด์๋ฉด์,
input์ ์๋ก ๋ค๋ฅธ view์์ ๋ณธ ๋๋ผ์ธํธ์ ๋ชจ์ต์ ๋ฃ์ด์ฃผ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด input๊ฐ์ NeRF ๋ชจ๋ธ์ ํ์ต์ํค๋ฉด
์๋ก์ด view์์ ๋ฐ๋ผ๋ณธ ๋๋ผ์ธํธ์ ๋ชจ์ต์ด ์ถ๋ ฅ๋๋ ๊ฒ์ ํ์ธํ ์ ์๋๋ฐ์,
์ด๋ ๊ฒ ๊ฐ์ฒด์ 3D ๋ชจ๋ธ์ ์ง์ ์์ฑํ์ง ์๊ณ ๋
2D์ ๋ถ์ฐ์์ ์ธ ์ด๋ฏธ์ง๋ค์ ์ ๋ ฅ์ ๋ฐ์์ NeRF๋ฅผ ํ์ต์ํค๋ฉด
์๋ก์ด view์์์ ๊ฐ์ฒด์ ๋ชจ์ต์ด ์์ธก๋๊ณ ์์ฑ ๋ฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ์ถ๋ ฅ ์ด๋ฏธ์ง๋ค์ ๋ชจ๋ ํฉ์น๋ฉด ๊ฐ์ฒด๋ฅผ ๋ชจ๋ ๋ฐฉ๋ฉด์์ ์ฐ์์ ์ผ๋ก ๋ณผ ์ ์์ด
๊ฒฐ๊ตญ ๋ง์น 3D๋ก ๋ณด๋ ๊ฒ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ค ์ ์๋ ๊ฒ์ ๋๋ค.
๊ทธ๋์ NeRF๋ ์ปดํจํฐ ๋น์ , ๊ทธ๋ํฝ์ค ๋ถ์ผ์์ ๊ต์ฅํ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๊ฐ ๋๊ณ ์๋ ๋ถ์ผ๋ผ๊ณ ํฉ๋๋ค.
์์ NeRF๋ 2D์ ์ด๋ฏธ์ง๋ฅผ 3D๋ก ๋ณํํด์ฃผ๋๋ฐ, ์ด๋ฅผ view synthesis ๊ธฐ์ ์ ํตํด์ ํ๋ค๊ณ ๋ง์๋๋ ธ๋๋ฐ์,
์ด์ ์กฐ๊ธ ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ NeRF๋ฅผ ์ฌ์ฉํ์ฌ 3D ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ๋์ง๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋จผ์ input๊ฐ์ ๋ณด๋ฉด, ์นด๋ฉ๋ผ ray๋ฅผ ๋ฐ๋ผ ๋ํ๋์ง๋ continuousํ 5์ฐจ์์ ์ขํ๋ฅผ ์ ๋ ฅ ๋ฐ๋๋ค๊ณ ํฉ๋๋ค.
์์ ๋๋ผ์ธํธ ์์๋ฅผ ๋ดค์ ๋, 100์ฅ์ ์ด๋ฏธ์ง๋ฅผ inputํ๋ค๊ณ ๋ง์์ ๋๋ ธ๋๋ฐ์,
NeRF๋ฅผ ํ์ต์ํฌ ๋ 100์ฅ์ ์ด๋ฏธ์ง๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด ์๋๊ณ
๊ฐ ์ด๋ฏธ์ง๋ค์ ํฝ์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก camera ray๋ฅผ ์์ ๋ ๊ทธ ์์ ์ขํ๋ค์ samplingํ์ฌ ํ์ต์ํต๋๋ค.
์ด๋ฒ์ ๋ ธ๋ ๋ถ๋์ ์ฌ์ง์ ๋ณด๋ฉด
์นด๋ฉ๋ผ์ input ๋ฐ์ ์ฌ์ง, ๊ทธ๋ฆฌ๊ณ ๋ฌผ์ฒด๊ฐ ์๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
input ๋ฐ์ ์ฌ์ง์ ํ ํฝ์ ์ ๊ธฐ์ค์ผ๋ก
์นด๋ฉ๋ผ ray๋ฅผ ์์์ ๋ ๋ฌผ์ฒด์ ๋ซ๋ ๋ถ๋ถ๋ค, ์ฆ ๋ฌผ์ฒด์ ์์น ์ ๋ณด๋ฅผ ๋ํ๋ด์ฃผ๋ ์ขํ๋ค๊ณผ
์นด๋ฉ๋ผ๊ฐ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๋ ๋ฐฉํฅ์ ๋ํ ์ขํ๊ฐ์ ์ป์ ์ ์์ต๋๋ค.
๊ทธ๋ ๊ฒ ์ป์ด๋ธ continuousํ 5์ฐจ์์ ์ขํ๋ค์ inputํ์ฌ
fully-connectedํ MLP ๋คํธ์ํฌ์ ํ์ต์ํค๋ฉด
๊ทธ ray ์์ sampling๋ ์ขํ๊ฐ๋ค์ ๊ฐ๊ฐ ๋์ํ๋ RGB๊ฐ๊ณผ volume density๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
์ฌ๊ธฐ์ RGB๊ฐ์ ๋ฌผ์ฒด์ color๋ฅผ ๋ํ๋ด๋ ๊ฒ์ด๊ณ ์,
volume density๋ ํฌ๋ช ๋์ ์ญ์๋ฅผ ์๋ฏธํ๋ ๋ถํฌ๋ช ๋๋ฅผ ์๋ฏธํฉ๋๋ค.
์ด๋ ๊ฒ ์ป์ด๋ธ ์ถ๋ ฅ๊ฐ๋ค์ volume renderingํ ๋ ์ฌ์ฉํ ๊ฒ์ธ๋ฐ
์ด๋ฅผ ํตํด์ ํ๋์ ํฝ์ ๊ฐ์ ํฉ์ฑํ๊ฒ ๋ฉ๋๋ค.
์ป์ด๋ธ ํฝ์ ๊ฐ๊ณผ ground truth์ ํฝ์ ๊ฐ์ ๋น๊ตํด loss๊ฐ์ ๊ตฌํ๊ณ backpropagationํ๊ฒ ๋๋๋ฐ,
์ด๋ volume rendering์ด๋ผ๋ ๊ธฐ๋ฒ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์
backpropagation์ ํตํด์ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๋ ๊ตฌ์กฐ๊ฐ
NeRF์ ํ์ต์ํค๋ ์ํคํ ์ฒ์ ๋๋ค.
(backpropagation, ๋ฏธ๋ถ ๊ฐ๋ฅ ๋ฑ์ ๊ดํด์ ๋ฌผ์ด๋ณผ ์ ์์ผ๋ ๊ณต๋ถํ๊ธฐ!)
๊ทธ๋์ ์ ๊ฐ ์ค๋ช ํ NeRF ๋ชจ๋ธ์ด
์ด ์ฌ์ง์ ์์๊ฒ ํํ๋์ด ์๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
์ด ์ฌ์ง์์ ์ ์๋ค์ (a)์ (b)๋ฅผ ์๋กญ๊ฒ ์ ์ํ ๊ฒ์ด๊ณ ,
volume rendering ๋ถ๋ถ์ ์ด๋ฏธ image rendering ๋ถ์ผ์์ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ ํตํด์ ๊ตฌํํ๋ค๊ณ ํฉ๋๋ค.
(NEXT Page)
์ ๊ฐ ์์ MLP์ ๋ํด์๋ ๊ฐ๋ตํ๊ฒ fully-connectedํ ๋คํธ์ํฌ์ด๋ค~ ๋ผ๊ณ ๋ง ํ๊ณ ๋์ด๊ฐ์
MLP๋ฅผ ์กฐ๊ธ ๋ ์์ธํ ๋ณด๊ณ ์ ํ๋๋ฐ์.
๊ทธ๋์ MLP ๋คํธ์ํฌ์ ๊ตฌ์กฐ๋ฅผ ๋์ํํ ์ฌ์ง์ ๊ฐ์ ธ์๋ดค์ต๋๋ค.
์ ๊ฐ ์ฒ์์ 5์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ MLP์ input๊ฐ์ผ๋ก ์ฌ์ฉํ๋ค๋ผ๊ณ ๋ง์๋๋ ธ์ต๋๋ค.
๊ทผ๋ฐ ์ค์ ๋ก 5์ฐจ์์ ๋ฐ์ดํฐ๊ฐ ํ๊บผ๋ฒ์ MLP์ ๋ค์ด๊ฐ๋ ๊ฒ์ ์๋๋ผ๋ ๊ฒ์ ํ์ธํ ์๊ฐ ์๋๋ฐ์,
๋จผ์ ๋ฌผ์ฒด์ ์์น๋ฅผ ๋ํ๋ด์ฃผ๋ 3์ฐจ์์ ์ขํ๋ฅผ input๊ฐ์ผ๋ก ๋ฃ์ด์ค๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ๋ค์ 8๊ฐ์ fully-connectedํ layer์ ํต๊ณผํ๊ฒ ๋๊ณ
output์ผ๋ก๋ volume density์ 256์ฐจ์์ feature vector๋ฅผ ์ถ๋ ฅํ๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ ๊ฒ ํด์ ์์ ๋ง์๋๋ฆฐ volume density ๊ฐ์ ๋จผ์ ๊ตฌํ๊ฒ ๋๊ณ ,
์ด ๊ฐ๊ณผ ๋ฐฉํฅ์ ๋ํ๋ด์ฃผ๋ ์ขํ๋ฅผ ์ด๋ ์ ๋ ฅํด์ฃผ๊ณ
๋ ํ๋์ additionalํ fully connected layer์ ํต๊ณผํ์ ๋
RGB๊ฐ์ธ ๋ฌผ์ฒด์ ์๊น์ ์ถ๋ ฅํ๊ฒ ๋ฉ๋๋ค.
์ด๋ ๊ฒ ์๊น์ ๊ตฌํ ๋๋ ๋ฐฉํฅ ์ขํ๋ฅผ ๊ฐ์ด ์ ๋ ฅ ๋ฐ๋ ์ด์ ๋ Non-Lambertian Effect ๋๋ฌธ์ด๋ผ๊ณ ํ๋๋ฐ์,
์ด Non-Lambertian Effect๋ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๋ ๊ฐ๋์ ๋ฐ๋ฟ ์์ด๋ ๋ฐ์ฌ์จ์ด ๋ฌ๋ผ์ง๋ ํ์์ ๋งํฉ๋๋ค.
๋ฐ๋ผ์ ๋ฌผ์ฒด์ ๋ฐ๋๋ฅผ ๊ตฌํ ๋๋ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๋ ๊ฐ๋์๋ ์๊ด์ด ์๊ธฐ ๋๋ฌธ์ ์ฒ์ 8๊ฐ์ FC์์๋ ์์น ์ ๋ณด๋ง ํ์ตํ๋๋ก ํ์์ง๋ง, RGB ๊ฐ์ ๊ตฌํ ๋๋ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๋ ๋ฐฉํฅ ๊ฐ๊น์ง ์ถ๊ฐ์ ์ผ๋ก ํ์ต์์ผ ๋ง์ง๋ง FC์ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ค ๊ฒ์ ๋๋ค.
(PREVIOUS Page)
๊ทธ๋์ MLP์ ์ถ๋ ฅ๊ฐ ๋ถ๋ถ์๋ RGB๊ฐ์ ์์น ์ขํ์ ๋ฐฉํฅ ์ขํ๋ฅผ ๊ฐ์ด ์ ๋ ฅ ๋ฐ์ ์์ธกํ๋ค๊ณ ๋์ด์๊ณ ,
๋ฐ๋๊ฐ์ ์ค๋ก์ง ์์น ์ขํ ๊ฐ๋ง์ผ๋ก ์์ธกํ๋ค๊ณ ๋์ด ์๋ ์ด์ ์ ๋๋ค.
๊ทธ๋์ ๋ฐ์ ์ฌ์ง์ ๋ณด์๋ฉด ground truth๊ฐ๊ณผ ๋น๊ตํ์ ๋
view dependency๋ฅผ ๊ณ ๋ คํ์ง ์์์ ๋๋ ๋ฐํด์ ๋น์ด ๋ฐ์ฌ๋์ด ํ์๊ฒ ๋ณด์ด๋ ๋ถ๋ถ์ ๋ฐ์์ด ๋์ง ์์ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
๋ํ ์์ ์ฌ์ง์ ๋ณด๋ฉด, ํ๋์ view๋ฅผ ์ก๊ณ ๋ฌผ์ฒด๋ฅผ ์์ง์์ ๋, ์ฆ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๋ ๋ฐฉํฅ์ ๋ฐ๋์คฌ์ ๋,
์๊น์ด ์ฐ์์ ์ผ๋ก ์ ์ถ๋ ฅ์ด ๋๋ ๊ฒ์ ํ์ธํ ์ ์๋ ๊ฒ์ ๋๋ค.
๋ค์์ผ๋ก๋ Volume Rendering ๋ถ๋ถ์ ๋ํ ์ค๋ช ์ด ๋์ค๋๋ฐ์,
์ด ๋ถ๋ถ์ NeRF ์ ์๋ค์ด ์ง์ ๋ง๋ค์ด๋ธ ๋ฐฉ๋ฒ์ ์๋๊ณ
์ด๋ฏธ Image Rendering ๋ถ์ผ์์ ์ฌ์ฉ๋๊ณ ์๋ ๊ธฐ๋ฒ์ด์ฌ์
๋ ผ๋ฌธ์์๋ classic volume rendering technique๋ฅผ ์ฌ์ฉํ๋ค๋ผ๊ณ ํํํฉ๋๋ค.
๊ทธ๋์ volume rendering์ ๊ฐ๋ตํ๊ฒ ์ค๋ช ํ์๋ฉด
volume density์ rgb๊ฐ์ ํฉ์ณ์ ํ๋์ ํฝ์ ๋ก ๋ณํํ๋ ์์ ์ ์๋ฏธํฉ๋๋ค.
์ด ๊ฐ๋ ์ ๋ํ ์์์ (1) ์์์์ ๋ณผ ์ ์์ต๋๋ค.
(1) ์์์ ๋ณด๊ธฐ ์ ์, r(t)๊ฐ์ ๋จผ์ ๋ณด๋ฉด,
์ด๊ฒ์ ์นด๋ฉ๋ผ ray๋ฅผ ์๋ฏธํฉ๋๋ค.
o๋ ์์ ์ฆ, ์นด๋ฉ๋ผ์ ์์น๋ฅผ ์๋ฏธํ๊ณ ,
d๋ ์นด๋ฉ๋ผ ray์ ๋ฐฉํฅ, ๊ทธ๋ฆฌ๊ณ t๋ ray ์์ ์ ์ ์์น๊ฐ ๋๊ฒ ์ต๋๋ค.
๊ทธ๋์ ์์ ํฌ๊ฒ ๋ดค์ ๋, ์นด๋ฉ๋ผ ray์ ๋ํ ๋ฐ๋์ RGB๊ฐ์ ์๋ก ๊ณฑํด์
tn~tf๊น์ง ๋งํผ ์ ๋ถ ์ ๋ถํ ๊ฒ์ ํ์ธํ ์๊ฐ ์์ต๋๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ density ๊ฐ์ด ํด์๋ก ํฝ์ ๊ฐ์ RGB๊ฐ์ด ๋ ๋ง์ด ๋ฐ์๋๊ฒ ๋๋ ๊ฒ์ ๋๋ค.
๊ทผ๋ฐ ์ฌ๊ธฐ์ ์ถ๊ฐ์ ์ผ๋ก T(t)๋ผ๋ ๊ฐ์ด ๋ณด์ด๋๋ฐ์, ์ด๋ transmittance๋ฅผ ๋ํ๋ ๋๋ค.
Transmittance๋ t๋ณด๋ค ์์ ์๋ ์ ๋ค์ ๋ฐ๋์ ํฉ์ ์๋ฏธํ๋๋ฐ์, (์ ๋ถ ์ ๋ณด์ฌ์ฃผ๋ฉด์ ๋งํ๊ธฐ)
์ด ๊ฐ์ - ๋ถํธ๋ฅผ ๊ฐ์ง๋ฏ๋ก transmittance๊ฐ์ด ํด์๋ก ๋ณด๊ณ ์ถ์ ๋ฌผ์ฒด๊ฐ ๊ฐ๋ ค์ก์์ ์๋ฏธํฉ๋๋ค.
์ด transmittance๊ฐ๊น์ง ๊ณฑํด์ค์ผ๋ก์จ ray์ ๊ตฌ๊ฐ ์์ ๋ชจ๋ ์ ์ ๋ํ ์ ๋ณด๋ฅผ ๋ฐ์์ ํ์ฌ
๋ฐ๋์ RGB๊ฐ์ ๋ฐ๋ผ์ ํ๋์ ์ด๋ฏธ์ง ํฝ์ ๊ฐ C(t)๋ฅผ ๊ณ์ฐํจ์ ํ์ธํ ์๊ฐ ์์ต๋๋ค.
๊ทผ๋ฐ ์ฌ๊ธฐ์ ์ด๋ฌํ ์๊ฐ์ ํ์ค ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
์นด๋ฉ๋ผ ray๋ ์ง์ ์ด๊ณ ์ด ์์๋ ๋ฌด์ํ ๋ง์ ์ ๋ค์ด ์์ํ ๋ฐ,
์ด ๋ฌด์ํ๊ฒ ๋ง์ ์ ๋ค์ ์ ๋ถ samplingํ๋ ๊ฒ์ ๋ง์ด ๋์ง ์๋ค๊ณ ์๊ฐํ์ค ๊ฒ ๊ฐ์์.
๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ray ์์์ ๋ช ๊ฐ์ ์ ๋ค์ ์ํ๋งํ์ฌ ๋ฝ์๋ด๋๋ฐ,
ray ์์์ ๋ฌด์์๋ก ๋ฝ์๋ด๋ฉด ์ ๋ณด๊ฐ ์ ๋ฆฌ๊ฑฐ๋ ๋ถ์กฑํ ์ ์์ผ๋๊น
๋ ผ๋ฌธ์์๋ ray๋ฅผ N๋ฑ๋ถํ์๊ณ , ๊ฐ๊ฐ์ ๋ฑ๋ถํ ๊ณณ์ bin์ด๋ผ๊ณ ํํํ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด bin๋ค์ ๋ชจ๋ ํ๋ฅ ์ด ๊ท ์ผํ ๋ถํฌ๋ฅผ ์ด๋ฃจ๋๋ก ์ ์ ๋ฝ์ต๋๋ค.
์ด๋ ๊ฒ ๋๋ฉด ํ์ตํ ๋๋ง๋ค sampling๋๋ ์ ์ด ๋ฌ๋ผ์ง๋ฏ๋ก ์ฐ์์ ์ธ ๊ฐ์ ๋ํด์ ํ์ตํ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ stratified sampling approach๋ผ๊ณ ํ๊ณ ,
์์ (2)์์ ๋ณด์ด์๋ ๊ฒ์ฒ๋ผ
tn๋ถํฐ tf๊น์ง์ ๊ตฌ๊ฐ์ N๋ฑ๋ถํ์ฌ ๊ฐ ๋ฑ๋ถ ๊ตฌ๊ฐ์์ i๋ฒ์งธ ๋์ ti๋ฅผ ์์ฑํ๋๋ฐ
์ด๋ ๊ฐ ๊ตฌ๊ฐ๋ง๋ค Uniform Distribution (๊ท ์ผ ๋ถํฌ)๋ฅผ ๋ฐ๋ฅด๋๋กํจ์ ์์ํ ํ ๊ฒ์ ๋๋ค.
(NEXT Page)
์ด๋ ๊ฒ NeRF์ ๊ธฐ๋ณธ์ ์ธ implementation ๋ฐฉ๋ฒ์ ๋ํด์ ์ค๋ช ๋๋ ธ๋๋ฐ์,
์์ฝ๊ฒ๋ high-frequency์ high-resolution์ complexํ scene๋ค์ ํํํ๊ธฐ์๋ ๊ธฐ๋ณธ์ ์ธ ๊ตฌํ ๋ฐฉ์์ด ์ฑ๋ฅ์ ์์ด์ ๋ถ์กฑํจ์ ๋ณด์๋ค๊ณ ํฉ๋๋ค.
๊ทธ๋์ ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Positional encoding ๋ฐฉ๋ฒ๊ณผ Hierarchical volume sampling ๋ฐฉ๋ฒ, 2๊ฐ์ง๋ฅผ ์๊ฐํฉ๋๋ค.
๋จผ์ Positional Encoding์ ๋ํด์ ๋ง์๋๋ฆฌ์๋ฉด, NLP์์์ ๊ฐ๋ ๊ณผ๋ ๋ค๋ฅธ ๊ฐ๋ ์ ๋๋ค.
NeRF์์ Positional Encoding์ ํ๋ ์ด์ ๋ high-frequency ์์ญ๊น์ง ํ์ต์ ํ๊ณ ์ถ์๋ฐ,
์ ์ ์ ๋ ฅ๊ฐ์ด 5์ฐจ์๋ฐ์ ๋์ง ์์, ํ์ตํ ๋ ์ ๋ณด๊ฐ ๋ง์ด ๋ถ์กฑํ์ฌ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค๊ณ ํฉ๋๋ค.
๊ทธ๋์ (4)๋ฒ ์์ ํตํด์ high-frequency ์ ๋ณด๊น์ง ์ ํํํ ์ ์๋๋ก ํด์คฌ๋๋ฐ์,
์ด ์์์์ L์ ์ฐจ์ ์๋ฅผ ์๋ฏธํฉ๋๋ค.
๋ ผ๋ฌธ์์๋ ์ฒ์ ์์น ์ขํ๊ฐ์ ๋ํด์๋ L์ 10์ผ๋ก,
๋ฐฉํฅ ์ขํ๊ฐ์ ๋ํด์๋ L์ 4๋ก ํด์คฌ๋ค๊ณ ํ๋๋ฐ์,
๊ทธ๋์ MLP ๋คํธ์ํฌ๋ฅผ ๋ค์ ํ์ธํ๋ฉด ์ γ(x)์ γ(d)์ ์ฐจ์์ด ๊ฐ๊ฐ 60์ฐจ์๊ณผ 24์ฐจ์์ผ๋ก ํํ๋๋์ง ์ ์ ์์ต๋๋ค.
์๋ํ๋ฉด, γ(x)์ ๊ฒฝ์ฐ, ์๋ 3์ฐจ์์ ์์น ์ขํ๊ฐ ๊ฐ๊ฐ์ด 10์ฐจ์์ด ๋๊ณ , sin๊ณผ cos๊ฐ์ด ๋ฒ๊ฐ์ ํํ๋๊ธฐ ๋๋ฌธ์ 3x10x2ํด์ 60์ฐจ์์ด ๋จ์ ๋ณผ ์ ์์ต๋๋ค.
γ(d) ๊ฐ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฐฉํฅ ์ขํ๋ฅผ ์ ๋ ฅํ ๋๋ 3D์ Cartesian ์ขํ๋ฅผ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ฃ๊ธฐ ๋๋ฌธ์ 3x4x2ํด์ 24์ฐจ์์ด ๋๋ ๊ฒ์ ๋๋ค.
์ด๋ ๊ฒ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ก ๋ง๋ค์ด์ค์ผ๋ก์จ high-frequency์ ํจ์๋ก ํ์ต์ด ๋๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
๋ค์์ผ๋ก๋ Hierarchical Volume sampling ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค.
์ด ๊ธฐ๋ฒ์ ์ฌ์ฉํ๊ฒ ๋ ์ด์ ๋, ์์ volume rendering์ ํ๊ธฐ ์ํด์ stratified sampling์ ์งํํ๋ค๊ณ ๋ง์๋๋ ธ์ต๋๋ค.
๊ทผ๋ฐ ์ด๋ ray ์์ ์ ๋ค ์ค์์ ๋ฌผ์ฒด๊ฐ ์กด์ฌํ์ง ์๋
free space๋ occluded region์ ๋ฝ์ ํ์ต์์ผฐ์ ๋์ ๋นํจ์จ์ฑ์ ๊นจ๋ฟ๊ฒ ๋์ด,
๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ ์ ์๋ฏธํ ์ ๋ค์ ๋ค์ samplingํ์ฌ ์ถ๊ฐํ์ต์ ์งํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ ๊ฒ์ ๋๋ค.
๊ทธ๋์ Coarse ๋คํธ์ํฌ์ Fine ๋คํธ์ํฌ, ๋ ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๋ ๊ฒ์ธ๋ฐ์,
์ฒ์์ ray ์ ์ฒด์ ๋ํด stratified samplingํ์ฌ ํ์ต์ ์ํต๋๋ค. ์ด๊ฒ์ Coarse ๋คํธ์ํฌ๋ผ๊ณ ํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์์์ ํ์ต๋์ ๋ ๋ฐ๋ ๊ฐ์ด ํฌ๊ฒ ๋์จ ๋ถ๋ถ์ ๋ค์ ๊ณจ๋ผ์ samplingํด์ ์ถ๊ฐ์ ์ผ๋ก ํ์ต ์ํฌ ๊ฒ์ธ๋ฐ, ์ด ๋คํธ์ํฌ์์๋ Nc๊ฐ์ Nf๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ฃ์ด์ ํ์ต์ํค๋ ๊ฒ์ ๋๋ค. (์ ์ฒด ๋ถ๋ถ๋ ๊ณ ๋ คํ ์ ์๊ฒ๋ ์ค์ ํจ) ์ด๊ฒ์ Fine ๋คํธ์ํฌ๋ผ๊ณ ํ๊ณ , ์ด๊ฒ์ ํตํด์ ์ต์ข ํฝ์ ๊ฐ์ ์ป์ด๋ผ ์ ์๋ ๊ฒ์ ๋๋ค.
(NEXT Page)
๋ง์ง๋ง์ผ๋ก Implementation detail์ ๋ณด๋ฉด
iteration์ ๋ ๋๋ง๋ค, camera ray๋ฅผ randomํ๊ฒ samplingํ๊ณ
์ฌ๊ธฐ์์ samplingํ ์ ๋ค์ hierarchical sampling์ ํตํด์ ์ ํ๊ณ
volume rendering์ ํตํด์ ์ป์ ํฝ์ ๊ฐ์ผ๋ก
ground truth ๊ฐ๊ณผ ๋น๊ตํ์ฌ loss๋ฅผ ๊ณ์ฐํ๋ ๊ตฌ์กฐ์ธ ๊ฒ์ ๋๋ค.
์ด๋ loss๋ ์๋ ์์์ฒ๋ผ coarse network์ loss๊ฐ๊ณผ fine network์ loss๊ฐ์ ํฉํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
์ด ์คํ์์๋ 4096๊ฐ์ ray๋ค์ ๊ฐ์ง๊ณ ์คํํ๋ค๊ณ ํ๊ณ ,
Nc๋ 64, Nf๋ 128๋ก sampling์ ์งํํ๋ค๊ณ ํฉ๋๋ค.
NeRF๋ NVIDIA V100 GPU๋ฅผ ์ฌ์ฉํ์ ๋, ํ๋์ scene์ ๋ง๋๋๋ฐ 1-2์ผ์ด ๊ฑธ๋ฆฐ๋ค๊ณ ํฉ๋๋ค.