https://arxiv.org/pdf/1706.03762.pdf
๋ชจ๋ธ ์์ฑ ๋ฐฐ๊ฒฝ
๊ธฐ์กด RNN์ ๋ฌธ์ ์ : Long term dependency, Gradient Vanishing, Gradient Exploding Problem
Seq2Seq ๋ชจ๋ธ์ ๋ฌธ์ ์ : Context Vector์ ์ ๋ณด ์์ค ๋ฌธ์ , RNN์ ์์กด์
Transformer๋ self-attention mechanism์ ํตํด์ ์ด๋ฅผ ํด๊ฒฐํจ
- Long term dependency์ด ๋ฌด์์ด๊ณ ์ด๋ค ์ด์ ๋ก ๋ฐ์ํ๋์ง, ์ด๋ ๊ณผ์ ์์ ๋ฐ์ํ๋์ง, ์ด์ ๋ํ ํด๊ฒฐ๋ฐฉ์์ ๋ฌด์์ธ์ง
- Gradient Vanishing, Exploding ๋ฌธ์ ๋ ๋ง์ฐฌ๊ฐ์ง
- Seq2Seq์ Context Vector์ ๊ดํ ๋ฌธ์ ๋ฐ ์ ๋ฐ์ ์ธ ํ๊ณ์ ํ์ ํ๊ณ
- ์ด๋ค ์ ์ผ๋ก Transformer๊ฐ ์ด๋ฅผ ํด๊ฒฐํ๋ ค ํ๋์ง
๋ชจ๋ธ ๊ตฌ์กฐ ์ค๋ช
๋ ผ๋ฌธ ๋ด์ฉ ์ ๋ฆฌ
์๋ฌธ์
Transformer์ ๋ฌธ์ ์ ์ ๋ฌด์์ผ๊น?
Transformer๋ ์ด๋์ ์ฌ์ฉ๋ ๊น?