Sequence Generation
Encoder-Decoder Scheme
- Encoder: Compress input Sequence into one vector
- Decoder: Use one vector to generate output
Callenges
- 인풋으로 들어온 백터들을 한개의 백터로 압축하고 여러 백터들로 풀어 내는 것은 성능이 낮아지는 원인이 될 수 있다.
- single vector may not enough for decoder to generate correct words
- 모든 단계에서 인풋들이 모두 동등하게 유용하지 않을 수 있다
- 인풋의 관련성들이 유용할 수 있다.
Attention Model
Attention Model Step
- Step 1: Evaluating Matching Degree
- m: context에 x들이 얼마나 유용한지 NN 후 sigmoid
- NN안쓰고 innerproduct만 사용하는 경우도 존재한다.
- Step 2: Normalizing Matching Degree
- s: m을 softmax로 노말라이즈하여 구한 유용도
- Step 3: Aggregating Inputs
- z: sumproduct(x, s)
Attenton is Great!
- Attention significantly improves NMT(Neural Machine Translation) performance
- Attention solves the bottleneck problem.
- Attention helps with vanishing gradient problem.
- Attention provides some interpretability.
Bidirectional LSTM
h_i = [ ->(h_i), <-(h_i) ] represents the past and future information
'DataScience > DeepLearning' 카테고리의 다른 글
[딥러닝] 전이학습과 파인튜닝의 차이점 (0) | 2022.06.18 |
---|---|
[딥러닝 필기] week9. Sequence Modeling (0) | 2022.04.17 |
[딥러닝 필기] week8. LSTM-GRU (0) | 2022.04.16 |
[딥러닝 필기] week8. RNN (Recurrent Neural Networks) (0) | 2022.04.16 |
[딥러닝 필기] week8. CNN Basics: CNN Structure (0) | 2022.04.16 |