DataScience/DeepLearning 14

[딥러닝 필기] week9. RNN-Attention Model

Sequence Generation Encoder-Decoder Scheme Encoder: Compress input Sequence into one vector Decoder: Use one vector to generate output Callenges 인풋으로 들어온 백터들을 한개의 백터로 압축하고 여러 백터들로 풀어 내는 것은 성능이 낮아지는 원인이 될 수 있다. single vector may not enough for decoder to generate correct words 모든 단계에서 인풋들이 모두 동등하게 유용하지 않을 수 있다 인풋의 관련성들이 유용할 수 있다. Attention Model Attention Model Step Step 1: Evaluating Matching De..

[딥러닝 필기] week9. Sequence Modeling

Sequential Data Modeling Three Types of Problems Next Step Prediction ex) ABCDE -> F Classification ex) ABCDE -> True/False Sequence Generation Machine Translation (기계 번역) Speech Recognition (음성 인식) Image Caption Generation (이미지에 캡션 생성 Types of Processes one to many Image Captioning (이미지 -> 문자열) many to one 감정 분석 (문자열 -> 감정) many to many 기계 번역 (문자열 -> 문자열) synched many to many (동일 길이의 many to ma..

[딥러닝 필기] week8. CNN Basics: CNN Structure

Convolution Layer와 Fully Connected Feature Map의 연결방법 Flatten 각 채널의 셀을 한줄로 세워서 한줄로 합친다. ex) 7 X 7 X 512 -> (7 X 7 X 512) X1 정보 손실이 없다. 연산을 Convlution이후에 많이 하는 구조 Gap 각 채널의 평균값을 한줄로 나열한다. ex) 7 X 7 X 512 -> (512) X 1 평균으로 나타내면서 정보 손실이 있다. 연산을 Convolution에서 많이 하는 구조 Resnet Paper: Deep Residual Learning for Image Recognition Link: https://arxiv.org/abs/1512.03385 idea: 입력값 x를 몇 Layer 이후에 더해준다. '/2' ..

[딥러닝 필기] week6. CNN Basics: Convolution

Convolutional Neural Networks Reduction of Model Complexity 보통 Sequential data에 사용된다. Sequential data: ex) Images, Speech, Text Image Classification 어떻게 사진이 같은지 판단해 ㅠㅠ Local Feature 을 찾아내고, Matching 해보자 Feature Extraction Convolution: A way to find out local features 각 자리 곱하여 합한다. (net) 8X8 에 3X3 넣으면 6X6이 나온다. output은 Feature Map이라고 부르기도 한다. Threshold로 음수를 0으로 바꿀 수 있다. (relu) Zero padding 인풋에 0이..

[딥러닝 필기] week6. Deep Learning-Various Technique: Batch Normalization

internal covariate shift 문제를 해결하기 위해 Batch Noramlization이 나왔다. Covariate Shift 입력 도메인이 변경되는 현상 (입력의 분포가 변경되는 현상) 입력 되는 샘플의 도메인의 범위나 시점, 모수 등이 변경되는 현상이다. Internal Covariate Shift 각 net 값들의 분포들이 학습 될 때마다 바뀐다. 이전 net들의 값의 분포들은 다음 net값의 인풋이 될 것 인데, 분포가 계속 바뀌게 되면 학습이 오래걸리게 된다. EX) Training Data = { d1, d2, d3, d4} net = { 0 , 1 , 0 , 1 }