DataScience/DeepLearning

[딥러닝 필기] week9. RNN-Attention Model

neopin 2022. 4. 17. 20:30

Sequence Generation

Encoder-Decoder Scheme

  • Encoder: Compress input Sequence into one vector
  • Decoder: Use one vector to generate output

 

Callenges

  • 인풋으로 들어온 백터들을 한개의 백터로 압축하고 여러 백터들로 풀어 내는 것은 성능이 낮아지는 원인이 될 수 있다.
    • single vector may not enough for decoder to generate correct words
  • 모든 단계에서 인풋들이 모두 동등하게 유용하지 않을 수 있다
  • 인풋의 관련성들이 유용할 수 있다.

 

Attention Model

 

Attention Model Step

  1. Step 1: Evaluating Matching Degree
    • m: context에 x들이 얼마나 유용한지 NN 후 sigmoid
    • NN안쓰고 innerproduct만 사용하는 경우도 존재한다.
  2. Step 2: Normalizing Matching Degree
    • s: m을 softmax로 노말라이즈하여 구한 유용도
  3. Step 3: Aggregating Inputs
    • z: sumproduct(x, s)

 

Attenton is Great!

  • Attention significantly improves NMT(Neural Machine Translation) performance
  • Attention solves the bottleneck problem.
  • Attention helps with vanishing gradient problem.
  • Attention provides some interpretability.

 

 

Bidirectional LSTM

h_i = [ ->(h_i), <-(h_i) ] represents the past and future information