CNN(Convolution Neural Network), ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง
์๋ฉด ์๊ณ ๋ฆฌ์ฆ์ ๊ดํ ๋ ผ๋ฌธ์ ๊ฒ์ํ๋ฉด, ๋๋ถ๋ถ CNN์ ํ์ฉํ ๋ถ๋ฅ ๋ฐฉ๋ฒ์ด ๋์จ๋ค.
์ด ์ ๊ฒฝ๋ง์ ์ ๋ ฅ์ด '์ด๋ฏธ์ง'๋ก ๊ตฌ์ฑ๋ผ ์๋ค๋ ์ ์ ํ์ฉํ๋ค.
์ผ๋ฐ ์ ๊ฒฝ๋ง๊ณผ ๋ฌ๋ฆฌ CNN์ ๋ ์ด์ด์๋ ๋๋น, ๋์ด, ๊น์ด๋ก 3์ฐจ์ ๋ฐฐ์ด๋ ๋ด๋ฐ์ด ์๋ค.
"๊น์ด" : ์ ์ฒด ์ ๊ฒฝ๋ง์ ๊น์ด๊ฐ ์๋, ํ์ฑํ ๋ณผ๋ฅจ์ 3์ฐจ์์ ์๋ฏธํ๋ฉฐ, ๋คํธ์ํฌ์ ์ด ๋ ์ด์ด ์๋ฅผ ๋ํ๋ผ ์ ์์.
ํ ๋ ์ด์ด์ ๋ด๋ฐ์ ๋ชจ๋ ๋ด๋ฐ์ด ์์ ํ ์ฐ๊ฒฐ๋ ๋ฐฉ์์ด ์๋๋ผ, ๊ทธ ์์ ์๋ ๋ ์ด์ด์ ์์ ์์ญ์๋ง ์ฐ๊ฒฐ๋จ.
์ฒ์ ์ ๋ ฅ ์ด๋ฏธ์ง๊ฐ 32*32*3์ด๋ฉด -> ์ต์ข ์ถ๋ ฅ ๋ ์ด์ด์ ํฌ๊ธฐ๋ 1*1*10์ด ๋๋๋ฐ,
Convent ์ํคํ ์ฒ์ ๋ง์ง๋ง์๋ full image๋ฅผ ๊น์ด dimension์ ๋ฐ๋ผ ๋ฐฐ์ด๋ single vector of class scores๋ก ๋ณํ.
๊ฐ๋จํ ConvNet -> sequence of layers์.
๋ชจ๋ ๋ ์ด์ด๋ ์ฐจ๋ณํ ๊ฐ๋ฅํ ๊ธฐ๋ฅ์ ํตํด, ํ ๋ณผ๋ฅจ์ ํ์ฑํ๋ฅผ ๋ค๋ฅธ ๋ณผ๋ฅจ์ผ๋ก ๋ณํํจ.
์ธ ๊ฐ์ง ์ฃผ์ ์ ํ์ ์ฃผ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํด ์ํคํ ์ณ ๊ตฌ์ถ
Convolution Layer - Pooling Layer - Fully Connected Layer
[INPUT - CONV - RELU - POOL - FC]
์๋ณธ ํฝ์ ๊ฐ์์ ์ต์ข ํด๋์ค scores๋ก ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ๋ ์ด์ด๋ณ๋ก ๋ณํํ๋ ๊ฒ.
์ผ๋ถ ๋ ์ด์ด์๋ ๋งค๊ฐ ๋ณ์๊ฐ ํฌํจ๋ผ ์๊ณ , ๊ทธ๋ ์ง ์์ ๋ ์ด์ด๋ ์กด์ฌ.
ํนํ, CONV/FC ๋ ์ด์ด๋ ์ ๋ ฅ ๋ณผ๋ฅจ์ ํ์ฑํ๋ฟ๋ง ์๋๋ผ, ๋งค๊ฐ๋ณ์(๋ด๋ฐ์ weight์ biases)์ ํจ์์ธ ๋ณํ์ ์ํ.
๋ฐ๋ฉด, RELU/POOL ๋ ์ด์ด๋ ๊ณ ์ ๋ ํจ์๋ฅผ ๊ตฌํ. CONV/FC ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ๋ gradient descent๋ก ํ๋ จ๋์ด,
ConvNet์ด ๊ณ์ฐํ class scores๊ฐ ๊ฐ ์ด๋ฏธ์ง์ training set์์์ label๊ณผ ์ผ์นํจ.
CNN ์ํคํ ์ณ์๋ ๋ค์ํ ์ข ๋ฅ๊ฐ ์์. ImageNet, AlexNet, VGG 16,19, GoogLeNet, ResNet, SENet
RNN(Recurrent Neural Network), ์ํ ์ ๊ฒฝ๋ง
๊ฐ๋ณ ๊ธธ์ด์ ์์ฐจ์ ํน์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฅ๋ฌ๋ ์ํคํ ์ณ
์์ฐจ ๋ฐ์ดํฐ๋ : ์์ฐจ์ ๊ตฌ์ฑ ์์๊ฐ ๋ณต์กํ ์๋ฏธ์ ๊ท์น์ ๋ฐ๋ผ ์ํธ ์ฐ๊ด๋๋ ๋ฐ์ดํฐ
์ด๋, Image Caption์ ํ๋ ค๋ฉด Image -> Sequence of words (one to many) ๋ฐฉ๋ฒ์ ์ทจํ๊ณ ,
action prediction์ด ํ์ํ ๊ฒฝ์ฐ, sequence of video frames -> action class (many to one) ๋ฐฉ๋ฒ์ ์ทจํจ.
for video captioning, sequence of video frames -> caption (many to many) ๋ฐฉ๋ฒ.
์๋ฉด ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝ์ฐ ๋๋ฒ ์งธ์ด์ง ์์๊น.
๋ช๋ช ์๊ฐ ๋จ๊ณ์์ old state์ input vector๊ฐ์ ์ง์ด ๋ฃ์ด parameters W๋ฅผ ์ฌ์ฉํ๋ ํจ์์ ์ง์ด๋ฃ์ด ๋๋ฆฌ๊ณ ,
new state์ ์ป๋ ์์ด๋ค. (new state = f(old state, xt)
LSTM(Long Short Term Memory Network)
RNN์ด ๊ฐ์ง long-term dependencies๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ
RNN์ ํ์ฌ ์ ๋ณด์ ๋ํ ์ดํด๋ฅผ ์ํด ์ด์ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๊ฒ ํ๋ค.
๊ทธ๋ฐ๋ฐ ํ์ฌ ๋จ๊ณ์์ ํ์ํ ์ ๋ณด๊ฐ ์ด๊ธฐ ๋จ๊ณ ํน์ ๋จผ ๊ณผ๊ฑฐ์ ๋จ๊ณ์์์ ์ ๋ณด๋ผ๋ฉด? ๊ฒฉ์ฐจ๊ฐ ์ปค์ง๋ฉด ์ ๋ณด ์ฐ๊ฒฐ์ฑ์ด ๋ถ์กฑํ๋ค.
๊ทธ๋์ ๊ทธ ์ฅ๊ธฐ ์์กด์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์จ๊ฒ LSTM ๋คํธ์ํฌ
๊ธฐ๋ณธ์ ์ธ ํ ์์ฒด๋ RNN์ฒ๋ผ ์์ฐจ ๋ฐ์ดํฐ๋ฅผ ์ฐ๊ฒฐ~์ฐ๊ฒฐ~ํด์ ์ ๋ฌํ๋ ๊ตฌ์กฐ์ธ๋ฐ,
[Cell State - ์ ํ์ ์ธ ์ํธ์์ฉ๋ง ์ ์ฉํ๋ฉด์, ์ผ์ ํ ์ ๋ณด๋ฅผ ๊ทธ๋๋ก ์ ๋ฌํ๋ ์ํ] - ๋งจ ์ ๋ผ์ธ
[Forget Gate Layer - ๊ณผ๊ฑฐ์ ์ ๋ณด๋ฅผ ๋ฒ๋ฆด ์ง ๊ฒฐ์ ํด์ ์ณ๋ด๋ ๋ถ๋ถ] - ์๋์์ ์ฒซ๋ฒ์งธ ์ธ๋ก ๋ผ์ธ
[Input Gate Layer - ํ์ฌ์ cell state value์ ์ผ๋ง๋ฅผ ๋ํ ์ง] - ์๋ ๋๋ฒ์งธ ์ธ๋ก ๋ผ์ธ
[Update Gate - forget gate๋ฅผ ํต๊ณผํ ๊ฐ ์ ๋ณด & input gate๋ฅผ ํต๊ณผํ ๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํด update] - ์๋ ์ธ๋ฒ์งธ
[Output Gate - ์ต์ข ๊ฐ] ๊ตฌ์กฐ๋ฅผ ์ถ๊ฐํ์ฌ, ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ์ข ๋ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ณ ์ ์ฅํ์ฌ ์ฌ์ฉํ ์ ์๋ค.
Bi-LSTM(Bidirectional LSTM)
์ ๋ฐฉํฅ ํ์ต ์งํ ๊ณผ์ ์์, ๋ง์ง๋ง ๋ ธ๋์์ ๋คto์ (์ญ๋ฐฉํฅ)์ผ๋ก ์คํ๋๋ ๋ค๋ฅธ LSTM์ ์ถ๊ฐํ ๊ฒ
์ญ๋ฐฉํฅ์ผ๋ก ์ ๋ณด๋ฅผ ์ ๋ฌํ๋ hidden layer์ ์ถ๊ฐํ๊ธฐ ๋๋ฌธ์, ๊ฐ ์์ ์์ hidden state๊ฐ ์ด์ ์์ & ๋ฏธ๋ ์์ ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ฐ๋ ํจ๊ณผ๊ฐ ์์.
์ฐธ๊ณ
http://cs231n.stanford.edu/schedule.html
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://sirzzang.github.io/ai/AI-01-LSTM-04/
'๐ฌ Science > ๐ป Signal' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์์ฒด ์ ํธ ๋ ์ด๋ ์์คํ ์ ์ฌ์ฉํ ์๋ฉด ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ (0) | 2024.03.04 |
---|---|
๋ ์ด๋ ์ ํธ ์ธ์์ ์ํ CNN ์ค๊ณ (0) | 2024.03.03 |
FT(ํธ๋ฆฌ์ ๋ณํ)๊ณผ CWT(์ฐ์ ์จ์ด๋ธ๋ฆฟ ๋ณํ) (1) | 2024.03.02 |
CNN & IR-UWB radar (during sleep๐ด) (3) | 2024.02.29 |
IR-UWB Radar๊ณผ Vital Signal, ๊ทธ๋ฆฌ๊ตฌ Neural Network !! (0) | 2024.02.28 |