=================================

학습내용

(7강) Transformer

Add-on 처럼 사용되던 attention 만 사용해서 만들 수 있다. 라는걸 보여주는게 transformer

일단 RNN 부터 보자.

RNN은 왼쪽에서 오른쪽으로 가거나 반대로 해서 오른쪽에서 왼쪽으로 감. bi-direction RNNs 은 두개 다 하는데 이러면 I go home 단어를 넣는다고 했을 때 go 단어는 정방향에서 I 정보를 역방향에선 home 정보를 hidden state에서 가지게 된다. 그래서 이 두 벡터를 concat 해서 두개 다 가지게 함.

(실습 7강) Multi-head Attention 구현

Multi-Head 시 이론은 H개 만큼 Q, K, V를 따로 생성하는게 맞는데 메모리문제 등으로 인해 하나의 행렬로 만들고 구간을 쪼개서 사용한다고 한다. 위 예시는 head=3일 때 d_model을 head 개수만큼 나누면 head가 3개가 나오니까 진짜 head 3개가 되는거임. 길이는 나누고 나온 d_k로 하고.

##7. Multi-head Attention 1. Multi-head attention 및 self-attention 구현. 2. 각 과정에서 일어나는 연산과 input/output 형태 이해.

필요 패키지 import

[1]
from torch import nn
from torch.nn import functional as F
from tqdm import tqdm
 
import torch
import math

데이터 전처리

[2]
pad_id = 0
vocab_size = 100
 
data = [
  [62, 13, 47, 39, 78, 33, 56, 13, 39, 29, 44, 86, 71, 36, 18, 75],
  [60, 96, 51, 32, 90],
  [35, 45, 48, 65, 91, 99, 92, 10, 3, 21, 54],
  [75, 51],
  [66, 88, 98, 47],
  [21, 39, 10, 64, 21],
  [98],
  [77, 65, 51, 77, 19, 15, 35, 19, 23, 97, 50, 46, 53, 42, 45, 91, 66, 3, 
43, 10],
  [70, 64, 98, 25, 99, 53, 4, 13, 69, 62, 66, 76, 15, 75, 45, 34],
  [20, 64, 81, 35, 76, 85, 1, 62, 8, 45, 99, 77, 19, 43]
]

[3]
def padding(data):
  max_len = len(max(data, key=len))
  print(f"Maximum sequence length: {max_len}")
 
  for i, seq in enumerate(tqdm(data)):
    if len(seq) < max_len:
      data[i] = seq + [pad_id] * (max_len - len(seq))
 
  return data, max_len

[4]
data, max_len = padding(data)
100%|██████████| 10/10 [00:00<00:00, 12826.62it/s]
Maximum sequence length: 20

[5]
data
[[62, 13, 47, 39, 78, 33, 56, 13, 39, 29, 44, 86, 71, 36, 18, 75, 0, 0, 0, 0],
 [60, 96, 51, 32, 90, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [35, 45, 48, 65, 91, 99, 92, 10, 3, 21, 54, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [75, 51, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [66, 88, 98, 47, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [21, 39, 10, 64, 21, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [98, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [77,
  65,
  51,
  77,
  19,
  15,
  35,
  19,
  23,
  97,
  50,
  46,
  53,
  42,
  45,
  91,
  66,
  3,
  43,
  10],
 [70, 64, 98, 25, 99, 53, 4, 13, 69, 62, 66, 76, 15, 75, 45, 34, 0, 0, 0, 0],
 [20, 64, 81, 35, 76, 85, 1, 62, 8, 45, 99, 77, 19, 43, 0, 0, 0, 0, 0, 0]]

Hyperparameter 세팅 및 embedding

[6]
d_model = 512  # model의 hidden size
num_heads = 8  # head의 개수

[7]
embedding = nn.Embedding(vocab_size, d_model)
 
# B: batch size, L: maximum sequence length
batch = torch.LongTensor(data)  # (B, L)
batch_emb = embedding(batch)  # (B, L, d_model)

[8]
print(batch_emb)
print(batch_emb.shape)
tensor([[[-0.2169, -0.3583,  1.0193,  ..., -0.7934, -0.9208, -1.0198],
         [-0.8411,  2.4772,  0.9702,  ..., -0.4276, -1.3260, -0.0394],
         [ 0.3482,  2.8239, -1.6240,  ...,  1.5651, -0.0208, -1.2387],
         ...,
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691]],

        [[-0.3289, -0.4818, -0.6164,  ..., -1.8003,  0.6235, -0.3524],
         [-0.8258, -0.2416,  1.0993,  ...,  0.8884,  0.3743,  1.3961],
         [ 0.7716,  0.2966,  0.1699,  ..., -1.2789, -0.5366,  0.3534],
         ...,
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691]],

        [[-0.8911, -1.5136,  1.1245,  ...,  1.0384, -0.5083,  0.3870],
         [ 0.7745, -0.3943,  0.5206,  ..., -0.1021, -0.8571, -1.8890],
         [ 0.7830,  0.8141, -1.1696,  ...,  1.6220,  1.5565,  0.6228],
         ...,
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691]],

        ...,

        [[ 0.4533,  0.8047, -0.1219,  ..., -0.8111,  1.2460,  0.4246],
         [-0.3274, -1.0963, -1.2922,  ...,  0.2544, -1.0975, -0.6509],
         [ 0.7716,  0.2966,  0.1699,  ..., -1.2789, -0.5366,  0.3534],
         ...,
         [-1.2036, -1.3401, -0.3581,  ...,  0.1999,  0.6540, -0.4159],
         [ 1.2155, -0.0542,  0.4923,  ..., -0.1561,  0.9865, -0.6558],
         [ 1.0399, -1.5524,  0.0432,  ..., -0.7237, -0.7161,  0.5026]],

        [[ 0.3194, -0.9475,  0.9975,  ..., -0.7796, -2.1479, -0.6828],
         [-0.3623, -1.6566,  0.6783,  ...,  2.4238, -0.3513,  1.6672],
         [ 0.3914,  0.2937, -0.2541,  ...,  1.7687, -0.3865, -0.8186],
         ...,
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691]],

        [[-1.4615,  1.6652, -1.0368,  ...,  0.6557, -0.1662, -0.8121],
         [-0.3623, -1.6566,  0.6783,  ...,  2.4238, -0.3513,  1.6672],
         [-1.7808,  1.5748,  1.9841,  ...,  0.1642,  1.0493,  0.2800],
         ...,
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691],
         [-0.3128,  0.5407,  0.1209,  ..., -0.2008, -0.6200, -0.9691]]],
       grad_fn=<EmbeddingBackward>)
torch.Size([10, 20, 512])

Linear transformation & 여러 head로 나누기

Multi-head attention 내에서 쓰이는 linear transformation matrix들을 정의합니다.

[9]
w_q = nn.Linear(d_model, d_model)
w_k = nn.Linear(d_model, d_model)
w_v = nn.Linear(d_model, d_model)

[10]
w_0 = nn.Linear(d_model, d_model)

[11]
q = w_q(batch_emb)  # (B, L, d_model)
k = w_k(batch_emb)  # (B, L, d_model)
v = w_v(batch_emb)  # (B, L, d_model)
 
print(q.shape)
print(k.shape)
print(v.shape)
torch.Size([10, 20, 512])
torch.Size([10, 20, 512])
torch.Size([10, 20, 512])

Q, k, v를 num_head개의 차원 분할된 여러 vector로 만듭니다.

[12]
batch_size = q.shape[0]
d_k = d_model // num_heads
 
q = q.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
k = k.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
v = v.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
 
print(q.shape)
print(k.shape)
print(v.shape)
torch.Size([10, 20, 8, 64])
torch.Size([10, 20, 8, 64])
torch.Size([10, 20, 8, 64])

[13]
q = q.transpose(1, 2)  # (B, num_heads, L, d_k)
k = k.transpose(1, 2)  # (B, num_heads, L, d_k)
v = v.transpose(1, 2)  # (B, num_heads, L, d_k)
 
print(q.shape)
print(k.shape)
print(v.shape)
torch.Size([10, 8, 20, 64])
torch.Size([10, 8, 20, 64])
torch.Size([10, 8, 20, 64])

Scaled dot-product self-attention 구현

각 head에서 실행되는 self-attetion 과정입니다.

[14]
attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)  # (B, 
num_heads, L, L)
attn_dists = F.softmax(attn_scores, dim=-1)  # (B, num_heads, L, L)
 
print(attn_dists)
print(attn_dists.shape)
tensor([[[[0.0483, 0.0464, 0.0778,  ..., 0.0614, 0.0614, 0.0614],
          [0.0362, 0.0656, 0.0156,  ..., 0.0370, 0.0370, 0.0370],
          [0.0460, 0.0501, 0.0424,  ..., 0.0623, 0.0623, 0.0623],
          ...,
          [0.0347, 0.0323, 0.0538,  ..., 0.1034, 0.1034, 0.1034],
          [0.0347, 0.0323, 0.0538,  ..., 0.1034, 0.1034, 0.1034],
          [0.0347, 0.0323, 0.0538,  ..., 0.1034, 0.1034, 0.1034]],

         [[0.0404, 0.0403, 0.0285,  ..., 0.0692, 0.0692, 0.0692],
          [0.0305, 0.0402, 0.0557,  ..., 0.0377, 0.0377, 0.0377],
          [0.0372, 0.0459, 0.0572,  ..., 0.0409, 0.0409, 0.0409],
          ...,
          [0.0666, 0.0519, 0.0567,  ..., 0.0635, 0.0635, 0.0635],
          [0.0666, 0.0519, 0.0567,  ..., 0.0635, 0.0635, 0.0635],
          [0.0666, 0.0519, 0.0567,  ..., 0.0635, 0.0635, 0.0635]],

         [[0.0455, 0.0610, 0.0668,  ..., 0.0576, 0.0576, 0.0576],
          [0.0735, 0.0627, 0.0385,  ..., 0.0494, 0.0494, 0.0494],
          [0.0773, 0.0402, 0.0613,  ..., 0.0504, 0.0504, 0.0504],
          ...,
          [0.0474, 0.0514, 0.0441,  ..., 0.0479, 0.0479, 0.0479],
          [0.0474, 0.0514, 0.0441,  ..., 0.0479, 0.0479, 0.0479],
          [0.0474, 0.0514, 0.0441,  ..., 0.0479, 0.0479, 0.0479]],

         ...,

         [[0.0373, 0.0420, 0.0425,  ..., 0.0405, 0.0405, 0.0405],
          [0.0395, 0.0286, 0.0691,  ..., 0.0638, 0.0638, 0.0638],
          [0.0250, 0.0302, 0.0596,  ..., 0.0698, 0.0698, 0.0698],
          ...,
          [0.0498, 0.0197, 0.0690,  ..., 0.0537, 0.0537, 0.0537],
          [0.0498, 0.0197, 0.0690,  ..., 0.0537, 0.0537, 0.0537],
          [0.0498, 0.0197, 0.0690,  ..., 0.0537, 0.0537, 0.0537]],

         [[0.0387, 0.0249, 0.0319,  ..., 0.0697, 0.0697, 0.0697],
          [0.0613, 0.0528, 0.0384,  ..., 0.0322, 0.0322, 0.0322],
          [0.0498, 0.0539, 0.0328,  ..., 0.0616, 0.0616, 0.0616],
          ...,
          [0.0426, 0.0712, 0.0455,  ..., 0.0511, 0.0511, 0.0511],
          [0.0426, 0.0712, 0.0455,  ..., 0.0511, 0.0511, 0.0511],
          [0.0426, 0.0712, 0.0455,  ..., 0.0511, 0.0511, 0.0511]],

         [[0.0727, 0.0252, 0.0722,  ..., 0.0559, 0.0559, 0.0559],
          [0.0863, 0.0512, 0.0345,  ..., 0.0449, 0.0449, 0.0449],
          [0.0634, 0.0584, 0.0333,  ..., 0.0503, 0.0503, 0.0503],
          ...,
          [0.0329, 0.0757, 0.0665,  ..., 0.0410, 0.0410, 0.0410],
          [0.0329, 0.0757, 0.0665,  ..., 0.0410, 0.0410, 0.0410],
          [0.0329, 0.0757, 0.0665,  ..., 0.0410, 0.0410, 0.0410]]],


        [[[0.0768, 0.0889, 0.0462,  ..., 0.0416, 0.0416, 0.0416],
          [0.0286, 0.0342, 0.0516,  ..., 0.0555, 0.0555, 0.0555],
          [0.0185, 0.0133, 0.0208,  ..., 0.0610, 0.0610, 0.0610],
          ...,
          [0.0208, 0.0198, 0.0146,  ..., 0.0593, 0.0593, 0.0593],
          [0.0208, 0.0198, 0.0146,  ..., 0.0593, 0.0593, 0.0593],
          [0.0208, 0.0198, 0.0146,  ..., 0.0593, 0.0593, 0.0593]],

         [[0.0395, 0.0524, 0.0477,  ..., 0.0518, 0.0518, 0.0518],
          [0.0460, 0.0686, 0.0540,  ..., 0.0477, 0.0477, 0.0477],
          [0.0278, 0.0704, 0.0335,  ..., 0.0522, 0.0522, 0.0522],
          ...,
          [0.0336, 0.0225, 0.0344,  ..., 0.0573, 0.0573, 0.0573],
          [0.0336, 0.0225, 0.0344,  ..., 0.0573, 0.0573, 0.0573],
          [0.0336, 0.0225, 0.0344,  ..., 0.0573, 0.0573, 0.0573]],

         [[0.0422, 0.0351, 0.0672,  ..., 0.0510, 0.0510, 0.0510],
          [0.0234, 0.0575, 0.0511,  ..., 0.0536, 0.0536, 0.0536],
          [0.0304, 0.0461, 0.0541,  ..., 0.0522, 0.0522, 0.0522],
          ...,
          [0.0769, 0.0466, 0.0611,  ..., 0.0488, 0.0488, 0.0488],
          [0.0769, 0.0466, 0.0611,  ..., 0.0488, 0.0488, 0.0488],
          [0.0769, 0.0466, 0.0611,  ..., 0.0488, 0.0488, 0.0488]],

         ...,

         [[0.0275, 0.0409, 0.0720,  ..., 0.0493, 0.0493, 0.0493],
          [0.0481, 0.0495, 0.0574,  ..., 0.0490, 0.0490, 0.0490],
          [0.0561, 0.0507, 0.0705,  ..., 0.0451, 0.0451, 0.0451],
          ...,
          [0.0825, 0.0692, 0.0783,  ..., 0.0441, 0.0441, 0.0441],
          [0.0825, 0.0692, 0.0783,  ..., 0.0441, 0.0441, 0.0441],
          [0.0825, 0.0692, 0.0783,  ..., 0.0441, 0.0441, 0.0441]],

         [[0.0264, 0.0646, 0.0331,  ..., 0.0523, 0.0523, 0.0523],
          [0.0760, 0.0303, 0.0844,  ..., 0.0451, 0.0451, 0.0451],
          [0.0276, 0.0411, 0.0247,  ..., 0.0574, 0.0574, 0.0574],
          ...,
          [0.0365, 0.0452, 0.0674,  ..., 0.0510, 0.0510, 0.0510],
          [0.0365, 0.0452, 0.0674,  ..., 0.0510, 0.0510, 0.0510],
          [0.0365, 0.0452, 0.0674,  ..., 0.0510, 0.0510, 0.0510]],

         [[0.0303, 0.0351, 0.0208,  ..., 0.0570, 0.0570, 0.0570],
          [0.0325, 0.0703, 0.0617,  ..., 0.0491, 0.0491, 0.0491],
          [0.0692, 0.0625, 0.0669,  ..., 0.0377, 0.0377, 0.0377],
          ...,
          [0.0641, 0.0561, 0.0607,  ..., 0.0474, 0.0474, 0.0474],
          [0.0641, 0.0561, 0.0607,  ..., 0.0474, 0.0474, 0.0474],
          [0.0641, 0.0561, 0.0607,  ..., 0.0474, 0.0474, 0.0474]]],


        [[[0.0319, 0.0667, 0.1340,  ..., 0.0258, 0.0258, 0.0258],
          [0.0427, 0.0423, 0.0473,  ..., 0.0536, 0.0536, 0.0536],
          [0.0788, 0.0390, 0.0182,  ..., 0.0467, 0.0467, 0.0467],
          ...,
          [0.0462, 0.0179, 0.0145,  ..., 0.0786, 0.0786, 0.0786],
          [0.0462, 0.0179, 0.0145,  ..., 0.0786, 0.0786, 0.0786],
          [0.0462, 0.0179, 0.0145,  ..., 0.0786, 0.0786, 0.0786]],

         [[0.0364, 0.0986, 0.0557,  ..., 0.0394, 0.0394, 0.0394],
          [0.0673, 0.0528, 0.0870,  ..., 0.0468, 0.0468, 0.0468],
          [0.0513, 0.0916, 0.0370,  ..., 0.0340, 0.0340, 0.0340],
          ...,
          [0.0393, 0.0612, 0.0221,  ..., 0.0608, 0.0608, 0.0608],
          [0.0393, 0.0612, 0.0221,  ..., 0.0608, 0.0608, 0.0608],
          [0.0393, 0.0612, 0.0221,  ..., 0.0608, 0.0608, 0.0608]],

         [[0.0255, 0.0424, 0.0443,  ..., 0.0660, 0.0660, 0.0660],
          [0.0531, 0.0754, 0.0386,  ..., 0.0541, 0.0541, 0.0541],
          [0.0622, 0.0611, 0.0416,  ..., 0.0516, 0.0516, 0.0516],
          ...,
          [0.0385, 0.0434, 0.0429,  ..., 0.0470, 0.0470, 0.0470],
          [0.0385, 0.0434, 0.0429,  ..., 0.0470, 0.0470, 0.0470],
          [0.0385, 0.0434, 0.0429,  ..., 0.0470, 0.0470, 0.0470]],

         ...,

         [[0.0485, 0.0438, 0.0449,  ..., 0.0447, 0.0447, 0.0447],
          [0.0331, 0.0283, 0.0588,  ..., 0.0636, 0.0636, 0.0636],
          [0.0586, 0.0647, 0.0924,  ..., 0.0431, 0.0431, 0.0431],
          ...,
          [0.0706, 0.0612, 0.0526,  ..., 0.0476, 0.0476, 0.0476],
          [0.0706, 0.0612, 0.0526,  ..., 0.0476, 0.0476, 0.0476],
          [0.0706, 0.0612, 0.0526,  ..., 0.0476, 0.0476, 0.0476]],

         [[0.0420, 0.0601, 0.0400,  ..., 0.0466, 0.0466, 0.0466],
          [0.0508, 0.0614, 0.0849,  ..., 0.0376, 0.0376, 0.0376],
          [0.0326, 0.0251, 0.0395,  ..., 0.0514, 0.0514, 0.0514],
          ...,
          [0.0369, 0.0344, 0.0416,  ..., 0.0564, 0.0564, 0.0564],
          [0.0369, 0.0344, 0.0416,  ..., 0.0564, 0.0564, 0.0564],
          [0.0369, 0.0344, 0.0416,  ..., 0.0564, 0.0564, 0.0564]],

         [[0.0524, 0.0410, 0.0576,  ..., 0.0572, 0.0572, 0.0572],
          [0.0561, 0.0960, 0.0704,  ..., 0.0430, 0.0430, 0.0430],
          [0.0610, 0.0537, 0.0277,  ..., 0.0351, 0.0351, 0.0351],
          ...,
          [0.0485, 0.0806, 0.0452,  ..., 0.0426, 0.0426, 0.0426],
          [0.0485, 0.0806, 0.0452,  ..., 0.0426, 0.0426, 0.0426],
          [0.0485, 0.0806, 0.0452,  ..., 0.0426, 0.0426, 0.0426]]],


        ...,


        [[[0.0356, 0.0693, 0.0371,  ..., 0.0553, 0.0690, 0.0497],
          [0.0185, 0.0895, 0.0409,  ..., 0.0365, 0.0746, 0.0806],
          [0.0202, 0.0567, 0.0417,  ..., 0.0596, 0.0598, 0.0458],
          ...,
          [0.0617, 0.0810, 0.0333,  ..., 0.0863, 0.0659, 0.0325],
          [0.0805, 0.0325, 0.0351,  ..., 0.0385, 0.0400, 0.0501],
          [0.0539, 0.0366, 0.0618,  ..., 0.0364, 0.0500, 0.0466]],

         [[0.0478, 0.0542, 0.0370,  ..., 0.0801, 0.0679, 0.0344],
          [0.0852, 0.0416, 0.0637,  ..., 0.0481, 0.0530, 0.0445],
          [0.0601, 0.0613, 0.0408,  ..., 0.0407, 0.0693, 0.0615],
          ...,
          [0.0350, 0.0598, 0.0460,  ..., 0.0949, 0.0513, 0.0563],
          [0.0545, 0.0409, 0.0532,  ..., 0.0597, 0.0392, 0.0411],
          [0.0474, 0.0552, 0.0396,  ..., 0.0646, 0.0546, 0.0326]],

         [[0.0484, 0.0461, 0.0176,  ..., 0.0607, 0.0507, 0.0382],
          [0.0985, 0.0508, 0.0593,  ..., 0.0314, 0.0546, 0.0861],
          [0.0388, 0.0508, 0.0483,  ..., 0.0543, 0.0564, 0.0994],
          ...,
          [0.0504, 0.0384, 0.0708,  ..., 0.0208, 0.0460, 0.0370],
          [0.0463, 0.0430, 0.0450,  ..., 0.0732, 0.0456, 0.0704],
          [0.0380, 0.0473, 0.0382,  ..., 0.0436, 0.0412, 0.0702]],

         ...,

         [[0.0574, 0.0286, 0.0633,  ..., 0.0606, 0.0433, 0.0666],
          [0.0491, 0.0768, 0.0442,  ..., 0.0694, 0.0412, 0.0423],
          [0.0570, 0.0356, 0.0540,  ..., 0.0382, 0.0603, 0.0340],
          ...,
          [0.0669, 0.0394, 0.0790,  ..., 0.0497, 0.0385, 0.0524],
          [0.0518, 0.0976, 0.0309,  ..., 0.0465, 0.0353, 0.0399],
          [0.0435, 0.0437, 0.0476,  ..., 0.0469, 0.0628, 0.0385]],

         [[0.0511, 0.0343, 0.0497,  ..., 0.0592, 0.0426, 0.0299],
          [0.0433, 0.0324, 0.0599,  ..., 0.0774, 0.0478, 0.0462],
          [0.0553, 0.0347, 0.0396,  ..., 0.0414, 0.0329, 0.0392],
          ...,
          [0.0405, 0.0380, 0.0432,  ..., 0.0903, 0.0603, 0.0343],
          [0.0414, 0.0506, 0.0374,  ..., 0.0455, 0.0491, 0.0531],
          [0.0447, 0.0297, 0.0492,  ..., 0.0441, 0.0549, 0.0418]],

         [[0.0401, 0.0182, 0.0629,  ..., 0.0664, 0.0572, 0.0494],
          [0.0447, 0.0362, 0.0564,  ..., 0.0397, 0.0405, 0.0733],
          [0.0449, 0.0701, 0.0348,  ..., 0.0376, 0.0419, 0.0580],
          ...,
          [0.0698, 0.0570, 0.0360,  ..., 0.0525, 0.0400, 0.0683],
          [0.0510, 0.0493, 0.0370,  ..., 0.0363, 0.0471, 0.0376],
          [0.0576, 0.0597, 0.0692,  ..., 0.0397, 0.0494, 0.0448]]],


        [[[0.0406, 0.0412, 0.0219,  ..., 0.0877, 0.0877, 0.0877],
          [0.0338, 0.0559, 0.0529,  ..., 0.0806, 0.0806, 0.0806],
          [0.0506, 0.0337, 0.0514,  ..., 0.0318, 0.0318, 0.0318],
          ...,
          [0.0344, 0.0460, 0.0434,  ..., 0.1100, 0.1100, 0.1100],
          [0.0344, 0.0460, 0.0434,  ..., 0.1100, 0.1100, 0.1100],
          [0.0344, 0.0460, 0.0434,  ..., 0.1100, 0.1100, 0.1100]],

         [[0.0601, 0.0350, 0.0664,  ..., 0.0631, 0.0631, 0.0631],
          [0.0411, 0.0600, 0.0305,  ..., 0.0237, 0.0237, 0.0237],
          [0.0283, 0.0500, 0.1090,  ..., 0.0510, 0.0510, 0.0510],
          ...,
          [0.0614, 0.0681, 0.0461,  ..., 0.0622, 0.0622, 0.0622],
          [0.0614, 0.0681, 0.0461,  ..., 0.0622, 0.0622, 0.0622],
          [0.0614, 0.0681, 0.0461,  ..., 0.0622, 0.0622, 0.0622]],

         [[0.0363, 0.0662, 0.0641,  ..., 0.0387, 0.0387, 0.0387],
          [0.0313, 0.0288, 0.0348,  ..., 0.0297, 0.0297, 0.0297],
          [0.0246, 0.1005, 0.0401,  ..., 0.0490, 0.0490, 0.0490],
          ...,
          [0.0643, 0.0340, 0.0427,  ..., 0.0503, 0.0503, 0.0503],
          [0.0643, 0.0340, 0.0427,  ..., 0.0503, 0.0503, 0.0503],
          [0.0643, 0.0340, 0.0427,  ..., 0.0503, 0.0503, 0.0503]],

         ...,

         [[0.0553, 0.0274, 0.0333,  ..., 0.0620, 0.0620, 0.0620],
          [0.0565, 0.0468, 0.0630,  ..., 0.0389, 0.0389, 0.0389],
          [0.0441, 0.0327, 0.0769,  ..., 0.0423, 0.0423, 0.0423],
          ...,
          [0.0263, 0.1001, 0.0387,  ..., 0.0492, 0.0492, 0.0492],
          [0.0263, 0.1001, 0.0387,  ..., 0.0492, 0.0492, 0.0492],
          [0.0263, 0.1001, 0.0387,  ..., 0.0492, 0.0492, 0.0492]],

         [[0.0537, 0.0480, 0.0862,  ..., 0.0379, 0.0379, 0.0379],
          [0.0315, 0.0965, 0.0714,  ..., 0.0440, 0.0440, 0.0440],
          [0.0546, 0.0409, 0.0454,  ..., 0.0412, 0.0412, 0.0412],
          ...,
          [0.0292, 0.0569, 0.0452,  ..., 0.0497, 0.0497, 0.0497],
          [0.0292, 0.0569, 0.0452,  ..., 0.0497, 0.0497, 0.0497],
          [0.0292, 0.0569, 0.0452,  ..., 0.0497, 0.0497, 0.0497]],

         [[0.0473, 0.0449, 0.0630,  ..., 0.0461, 0.0461, 0.0461],
          [0.0498, 0.0690, 0.0543,  ..., 0.0436, 0.0436, 0.0436],
          [0.0312, 0.0324, 0.0388,  ..., 0.0469, 0.0469, 0.0469],
          ...,
          [0.0875, 0.0861, 0.0373,  ..., 0.0404, 0.0404, 0.0404],
          [0.0875, 0.0861, 0.0373,  ..., 0.0404, 0.0404, 0.0404],
          [0.0875, 0.0861, 0.0373,  ..., 0.0404, 0.0404, 0.0404]]],


        [[[0.0968, 0.0516, 0.0518,  ..., 0.0462, 0.0462, 0.0462],
          [0.0517, 0.0533, 0.0306,  ..., 0.0768, 0.0768, 0.0768],
          [0.0638, 0.0841, 0.0273,  ..., 0.0418, 0.0418, 0.0418],
          ...,
          [0.0317, 0.0387, 0.0320,  ..., 0.0924, 0.0924, 0.0924],
          [0.0317, 0.0387, 0.0320,  ..., 0.0924, 0.0924, 0.0924],
          [0.0317, 0.0387, 0.0320,  ..., 0.0924, 0.0924, 0.0924]],

         [[0.0467, 0.0609, 0.0833,  ..., 0.0450, 0.0450, 0.0450],
          [0.0436, 0.0675, 0.0896,  ..., 0.0267, 0.0267, 0.0267],
          [0.0476, 0.0822, 0.0771,  ..., 0.0561, 0.0561, 0.0561],
          ...,
          [0.0347, 0.0670, 0.0367,  ..., 0.0612, 0.0612, 0.0612],
          [0.0347, 0.0670, 0.0367,  ..., 0.0612, 0.0612, 0.0612],
          [0.0347, 0.0670, 0.0367,  ..., 0.0612, 0.0612, 0.0612]],

         [[0.0339, 0.0394, 0.0391,  ..., 0.0499, 0.0499, 0.0499],
          [0.0310, 0.0318, 0.0619,  ..., 0.0328, 0.0328, 0.0328],
          [0.0831, 0.0336, 0.0379,  ..., 0.0541, 0.0541, 0.0541],
          ...,
          [0.0359, 0.0349, 0.0613,  ..., 0.0516, 0.0516, 0.0516],
          [0.0359, 0.0349, 0.0613,  ..., 0.0516, 0.0516, 0.0516],
          [0.0359, 0.0349, 0.0613,  ..., 0.0516, 0.0516, 0.0516]],

         ...,

         [[0.0544, 0.0314, 0.0356,  ..., 0.0515, 0.0515, 0.0515],
          [0.0799, 0.0470, 0.0319,  ..., 0.0391, 0.0391, 0.0391],
          [0.0408, 0.0561, 0.0754,  ..., 0.0346, 0.0346, 0.0346],
          ...,
          [0.0207, 0.0974, 0.0423,  ..., 0.0479, 0.0479, 0.0479],
          [0.0207, 0.0974, 0.0423,  ..., 0.0479, 0.0479, 0.0479],
          [0.0207, 0.0974, 0.0423,  ..., 0.0479, 0.0479, 0.0479]],

         [[0.0487, 0.0639, 0.0416,  ..., 0.0497, 0.0497, 0.0497],
          [0.0415, 0.0952, 0.0803,  ..., 0.0434, 0.0434, 0.0434],
          [0.0421, 0.0440, 0.0253,  ..., 0.0651, 0.0651, 0.0651],
          ...,
          [0.0538, 0.0644, 0.0421,  ..., 0.0563, 0.0563, 0.0563],
          [0.0538, 0.0644, 0.0421,  ..., 0.0563, 0.0563, 0.0563],
          [0.0538, 0.0644, 0.0421,  ..., 0.0563, 0.0563, 0.0563]],

         [[0.0271, 0.0523, 0.1258,  ..., 0.0414, 0.0414, 0.0414],
          [0.0624, 0.0719, 0.0781,  ..., 0.0454, 0.0454, 0.0454],
          [0.0386, 0.0539, 0.0486,  ..., 0.0528, 0.0528, 0.0528],
          ...,
          [0.0546, 0.0886, 0.1174,  ..., 0.0416, 0.0416, 0.0416],
          [0.0546, 0.0886, 0.1174,  ..., 0.0416, 0.0416, 0.0416],
          [0.0546, 0.0886, 0.1174,  ..., 0.0416, 0.0416, 0.0416]]]],
       grad_fn=<SoftmaxBackward>)
torch.Size([10, 8, 20, 20])

[15]
attn_values = torch.matmul(attn_dists, v)  # (B, num_heads, L, d_k)
 
print(attn_values.shape)
torch.Size([10, 8, 20, 64])

각 head의 결과물 병합

각 head의 결과물을 concat하고 동일 차원으로 linear transformation합니다.

[16]
attn_values = attn_values.transpose(1, 2)  # (B, L, num_heads, d_k)
attn_values = attn_values.contiguous().view(batch_size, -1, d_model)  # (B, 
L, d_model)
 
print(attn_values.shape)
torch.Size([10, 20, 512])

[17]
outputs = w_0(attn_values)
 
print(outputs)
print(outputs.shape)
tensor([[[-1.1352e-01, -1.9139e-01,  3.4395e-02,  ...,  4.0102e-02,
          -2.2987e-01,  1.9529e-01],
         [-8.6867e-02, -2.1087e-01, -1.0989e-02,  ...,  4.2762e-02,
          -1.9277e-01,  8.8230e-02],
         [-1.0772e-01, -2.3987e-01,  3.8831e-02,  ..., -9.8586e-03,
          -2.1114e-01,  1.1364e-01],
         ...,
         [-1.4770e-01, -2.5519e-01,  3.5802e-02,  ...,  2.1453e-02,
          -1.9920e-01,  1.3214e-01],
         [-1.4770e-01, -2.5519e-01,  3.5802e-02,  ...,  2.1453e-02,
          -1.9920e-01,  1.3214e-01],
         [-1.4770e-01, -2.5519e-01,  3.5802e-02,  ...,  2.1453e-02,
          -1.9920e-01,  1.3214e-01]],

        [[-1.9061e-01, -5.3132e-01,  7.5893e-02,  ...,  1.5970e-01,
          -5.5873e-01,  5.3326e-01],
         [-2.2175e-01, -5.3580e-01,  1.1941e-01,  ...,  1.4892e-01,
          -5.1877e-01,  5.3374e-01],
         [-2.5074e-01, -6.1631e-01,  1.0151e-01,  ...,  1.8491e-01,
          -5.1544e-01,  5.0850e-01],
         ...,
         [-2.2835e-01, -5.4975e-01,  9.6207e-02,  ...,  1.9166e-01,
          -5.5457e-01,  5.4181e-01],
         [-2.2835e-01, -5.4975e-01,  9.6207e-02,  ...,  1.9166e-01,
          -5.5457e-01,  5.4181e-01],
         [-2.2835e-01, -5.4975e-01,  9.6207e-02,  ...,  1.9166e-01,
          -5.5457e-01,  5.4181e-01]],

        [[-3.5870e-03, -2.8132e-01,  8.0012e-02,  ...,  1.3743e-01,
          -3.1456e-01,  2.6330e-01],
         [-8.5198e-02, -3.6469e-01,  6.6780e-02,  ...,  1.6005e-01,
          -3.5290e-01,  2.1697e-01],
         [-3.4478e-02, -3.8513e-01,  9.0698e-02,  ...,  1.4251e-01,
          -2.7272e-01,  1.5694e-01],
         ...,
         [-1.2265e-01, -3.9496e-01,  6.3260e-02,  ...,  1.1824e-01,
          -3.8367e-01,  2.5895e-01],
         [-1.2265e-01, -3.9496e-01,  6.3260e-02,  ...,  1.1824e-01,
          -3.8367e-01,  2.5895e-01],
         [-1.2265e-01, -3.9496e-01,  6.3260e-02,  ...,  1.1824e-01,
          -3.8367e-01,  2.5895e-01]],

        ...,

        [[ 3.9329e-02, -1.6083e-02, -1.3860e-01,  ...,  2.2836e-02,
           1.0380e-02,  1.6353e-01],
         [ 3.5097e-02, -8.2941e-03, -1.9275e-01,  ..., -7.4558e-03,
           2.7378e-02,  1.5106e-01],
         [ 1.3097e-02,  1.3226e-02, -1.8156e-01,  ...,  3.8179e-02,
           2.5640e-02,  1.0779e-01],
         ...,
         [ 4.8920e-02,  4.3918e-02, -1.8756e-01,  ...,  2.1911e-02,
           4.1894e-02,  1.4420e-01],
         [ 3.8124e-02, -3.4729e-02, -1.4246e-01,  ...,  2.2699e-02,
           8.5502e-02,  1.5101e-01],
         [ 5.7281e-02,  4.1677e-02, -1.5282e-01,  ...,  5.5112e-02,
          -1.1841e-03,  1.2372e-01]],

        [[-1.8894e-02, -2.2604e-01, -6.2761e-03,  ...,  2.4829e-02,
          -2.0479e-01,  8.3719e-02],
         [-1.0974e-02, -2.0397e-01, -2.7611e-03,  ..., -1.2597e-02,
          -1.3351e-01,  5.0224e-02],
         [ 4.9551e-02, -1.9723e-01, -6.5305e-02,  ...,  6.6988e-02,
          -1.7278e-01,  1.6469e-01],
         ...,
         [-1.4522e-02, -2.6608e-01,  1.3490e-04,  ...,  4.5861e-02,
          -2.0047e-01,  1.3786e-01],
         [-1.4522e-02, -2.6608e-01,  1.3490e-04,  ...,  4.5861e-02,
          -2.0047e-01,  1.3786e-01],
         [-1.4522e-02, -2.6608e-01,  1.3490e-04,  ...,  4.5861e-02,
          -2.0047e-01,  1.3786e-01]],

        [[ 1.9836e-02, -1.5901e-01, -5.8236e-02,  ...,  1.1571e-01,
          -1.9807e-01,  3.1994e-01],
         [ 3.1970e-02, -1.6160e-01, -4.8095e-02,  ...,  3.1911e-02,
          -1.3050e-01,  3.1769e-01],
         [ 3.0805e-02, -1.4795e-01, -8.4109e-02,  ...,  1.0025e-01,
          -1.9486e-01,  3.1365e-01],
         ...,
         [ 2.7737e-02, -1.9884e-01, -2.9289e-02,  ...,  1.3317e-01,
          -2.6549e-01,  3.4827e-01],
         [ 2.7737e-02, -1.9884e-01, -2.9289e-02,  ...,  1.3317e-01,
          -2.6549e-01,  3.4827e-01],
         [ 2.7737e-02, -1.9884e-01, -2.9289e-02,  ...,  1.3317e-01,
          -2.6549e-01,  3.4827e-01]]], grad_fn=<AddBackward0>)
torch.Size([10, 20, 512])

전체 코드

위의 과정을 모두 합쳐 하나의 Multi-head attention 모듈을 구현하겠습니다.

[18]
class MultiheadAttention(nn.Module):
  def __init__(self):
    super(MultiheadAttention, self).__init__()
 
    # Q, K, V learnable matrices
    self.w_q = nn.Linear(d_model, d_model)
    self.w_k = nn.Linear(d_model, d_model)
    self.w_v = nn.Linear(d_model, d_model)
 
    # Linear transformation for concatenated outputs
    self.w_0 = nn.Linear(d_model, d_model)
 
  def forward(self, q, k, v):
    batch_size = q.shape[0]
 
    q = self.w_q(q)  # (B, L, d_model)
    k = self.w_k(k)  # (B, L, d_model)
    v = self.w_v(v)  # (B, L, d_model)
 
    q = q.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
    k = k.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
    v = v.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
 
    q = q.transpose(1, 2)  # (B, num_heads, L, d_k)
    k = k.transpose(1, 2)  # (B, num_heads, L, d_k)
    v = v.transpose(1, 2)  # (B, num_heads, L, d_k)
 
    attn_values = self.self_attention(q, k, v)  # (B, num_heads, L, d_k)
    attn_values = attn_values.transpose(1, 2).contiguous().view(batch_size, 
-1, d_model)  # (B, L, num_heads, d_k) => (B, L, d_model)
 
    return self.w_0(attn_values)
 
  def self_attention(self, q, k, v):
    attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)  # 
(B, num_heads, L, L)
    attn_dists = F.softmax(attn_scores, dim=-1)  # (B, num_heads, L, L)
 
    attn_values = torch.matmul(attn_dists, v)  # (B, num_heads, L, d_k)
 
    return attn_values

[19]
multihead_attn = MultiheadAttention()
 
outputs = multihead_attn(batch_emb, batch_emb, batch_emb)  # (B, L, d_model)

[20]
print(outputs)
print(outputs.shape)
tensor([[[ 9.2516e-03,  1.7369e-01,  1.6916e-03,  ...,  1.1210e-01,
          -1.6726e-02,  3.4743e-01],
         [-3.6782e-02,  1.2917e-01, -4.9187e-02,  ...,  1.4615e-01,
          -3.5719e-02,  3.4785e-01],
         [ 3.5305e-03,  1.6074e-01, -8.8263e-02,  ...,  1.8464e-01,
           4.2831e-02,  4.0534e-01],
         ...,
         [-2.8834e-02,  1.2947e-01, -3.5194e-02,  ...,  1.8476e-01,
          -3.0066e-05,  3.2937e-01],
         [-2.8834e-02,  1.2947e-01, -3.5194e-02,  ...,  1.8476e-01,
          -3.0066e-05,  3.2937e-01],
         [-2.8834e-02,  1.2947e-01, -3.5194e-02,  ...,  1.8476e-01,
          -3.0066e-05,  3.2937e-01]],

        [[ 1.4557e-01, -1.0484e-01, -5.2524e-02,  ...,  6.9377e-01,
           6.0970e-02,  4.6097e-01],
         [ 1.5773e-01, -8.2220e-02, -7.7061e-02,  ...,  7.2866e-01,
           4.4147e-02,  4.3781e-01],
         [ 1.3460e-01, -9.5307e-02, -9.3904e-02,  ...,  7.3514e-01,
           7.2221e-02,  4.4110e-01],
         ...,
         [ 1.7378e-01, -1.1004e-01, -1.2651e-01,  ...,  7.8337e-01,
           6.8945e-02,  3.9528e-01],
         [ 1.7378e-01, -1.1004e-01, -1.2651e-01,  ...,  7.8337e-01,
           6.8945e-02,  3.9528e-01],
         [ 1.7378e-01, -1.1004e-01, -1.2651e-01,  ...,  7.8337e-01,
           6.8945e-02,  3.9528e-01]],

        [[ 1.0813e-01, -1.9237e-01,  3.3813e-02,  ...,  3.8729e-01,
           1.4551e-01,  3.0486e-01],
         [ 1.1949e-01, -1.7870e-01,  1.7301e-02,  ...,  4.1831e-01,
           1.1177e-01,  2.9937e-01],
         [ 1.2946e-01, -1.1937e-01, -2.8948e-02,  ...,  5.2200e-01,
           1.1423e-01,  3.4231e-01],
         ...,
         [ 7.3729e-02, -1.1033e-01, -8.8151e-02,  ...,  3.9152e-01,
           1.6017e-01,  2.6974e-01],
         [ 7.3729e-02, -1.1033e-01, -8.8151e-02,  ...,  3.9152e-01,
           1.6017e-01,  2.6974e-01],
         [ 7.3729e-02, -1.1033e-01, -8.8151e-02,  ...,  3.9152e-01,
           1.6017e-01,  2.6974e-01]],

        ...,

        [[ 1.1427e-01, -8.0809e-02, -9.1286e-02,  ...,  1.3664e-02,
           1.7932e-01,  1.6808e-02],
         [ 1.0275e-01, -9.2001e-02, -1.2701e-01,  ...,  4.8521e-03,
           1.9850e-01,  6.6440e-02],
         [ 5.8104e-02, -5.4810e-02, -1.3720e-01,  ...,  5.1057e-02,
           1.2398e-01,  3.6784e-02],
         ...,
         [ 1.1326e-01, -3.4439e-02, -7.9127e-02,  ...,  2.4230e-02,
           1.2355e-01,  3.7422e-02],
         [ 5.5170e-02, -1.9381e-02, -8.2321e-02,  ...,  2.8540e-02,
           1.3763e-01,  5.2429e-02],
         [ 1.0601e-01, -3.5269e-02, -9.8664e-02,  ...,  3.1459e-03,
           1.2400e-01,  6.3038e-02]],

        [[ 3.0379e-02,  4.2547e-02, -5.1137e-02,  ...,  1.6373e-01,
           3.6856e-02,  1.4134e-01],
         [-1.8070e-02,  7.9446e-02,  3.5455e-02,  ...,  1.3126e-01,
          -6.4744e-02,  1.3485e-01],
         [ 7.5835e-02,  8.2923e-02, -2.5474e-02,  ...,  2.0878e-01,
           9.6988e-02,  5.7338e-02],
         ...,
         [ 2.6591e-02,  1.3556e-01, -3.2525e-02,  ...,  1.7950e-01,
           3.0757e-02,  1.0859e-01],
         [ 2.6591e-02,  1.3556e-01, -3.2525e-02,  ...,  1.7950e-01,
           3.0757e-02,  1.0859e-01],
         [ 2.6591e-02,  1.3556e-01, -3.2525e-02,  ...,  1.7950e-01,
           3.0757e-02,  1.0859e-01]],

        [[-8.6823e-03, -4.3011e-02, -1.4872e-01,  ...,  3.8146e-01,
          -3.7269e-02,  2.0649e-01],
         [-3.7705e-02, -4.4422e-02, -7.4764e-02,  ...,  2.4636e-01,
          -1.0249e-01,  1.8855e-01],
         [-3.8483e-02, -2.6246e-02, -5.2669e-02,  ...,  2.3631e-01,
           2.0639e-03,  1.6390e-01],
         ...,
         [-8.9017e-03, -7.5137e-02, -1.4088e-01,  ...,  3.3598e-01,
          -2.4982e-02,  1.8044e-01],
         [-8.9017e-03, -7.5137e-02, -1.4088e-01,  ...,  3.3598e-01,
          -2.4982e-02,  1.8044e-01],
         [-8.9017e-03, -7.5137e-02, -1.4088e-01,  ...,  3.3598e-01,
          -2.4982e-02,  1.8044e-01]]], grad_fn=<AddBackward0>)
torch.Size([10, 20, 512])

(실습 8강) Masked Multi-head Attention 구현

mask 작업. 미래를 못 보게.

##8. Masked Multi-head Attention 1. Masked Multi-head Attention 구현. 2. Encoder-Decoder Attention 구현.

필요 패키지 import

[1]
from torch import nn
from torch.nn import functional as F
from tqdm import tqdm
 
import torch
import math

데이터 전처리

데이터의 값과 형태를 좀 더 명확하게 보기 위해 sample을 줄이겠습니다.

[2]
pad_id = 0
vocab_size = 100
 
data = [
  [62, 13, 47, 39, 78, 33, 56, 13],
  [60, 96, 51, 32, 90],
  [35, 45, 48, 65, 91, 99, 92, 10, 3, 21],
  [66, 88, 98, 47],
  [77, 65, 51, 77, 19, 15, 35, 19, 23]
]

[3]
def padding(data):
  max_len = len(max(data, key=len))
  print(f"Maximum sequence length: {max_len}")
 
  for i, seq in enumerate(tqdm(data)):
    if len(seq) < max_len:
      data[i] = seq + [pad_id] * (max_len - len(seq))
 
  return data, max_len

[4]
data, max_len = padding(data)
100%|██████████| 5/5 [00:00<00:00, 3296.37it/s]
Maximum sequence length: 10

[5]
data
[[62, 13, 47, 39, 78, 33, 56, 13, 0, 0],
 [60, 96, 51, 32, 90, 0, 0, 0, 0, 0],
 [35, 45, 48, 65, 91, 99, 92, 10, 3, 21],
 [66, 88, 98, 47, 0, 0, 0, 0, 0, 0],
 [77, 65, 51, 77, 19, 15, 35, 19, 23, 0]]

Hyperparameter 세팅 및 embedding

[6]
d_model = 8  # model의 hidden size
num_heads = 2  # head의 개수
inf = 1e12

[7]
embedding = nn.Embedding(vocab_size, d_model)
 
# B: batch size, L: maximum sequence length
batch = torch.LongTensor(data)  # (B, L)
batch_emb = embedding(batch)  # (B, L, d_model)

[8]
print(batch_emb)
print(batch_emb.shape)
tensor([[[ 2.5978e-02, -1.1719e+00, -5.6547e-01,  1.0690e+00, -7.4584e-01,
          -1.0695e+00,  1.4428e+00, -2.7004e+00],
         [-4.7617e-01, -1.3327e+00,  1.9251e+00, -6.8176e-01,  7.5115e-02,
           5.3887e-01,  2.2054e-01, -2.0816e-01],
         [-8.6807e-01,  1.1268e+00, -7.2726e-01, -1.0275e+00, -3.0366e-01,
           1.2544e+00, -7.0513e-02, -1.0134e+00],
         [-1.2948e+00, -2.5417e+00, -2.5985e-01, -3.3389e-01,  2.0048e-02,
          -1.6515e-01, -7.6054e-01,  1.1995e+00],
         [-1.1619e+00, -1.7698e+00, -5.5598e-01, -2.6992e-01,  1.3043e+00,
          -2.6215e-01, -6.2565e-01, -3.4484e-01],
         [-1.4553e+00,  7.6459e-01, -4.2104e-01, -5.1377e-01,  8.8455e-01,
          -1.5364e+00,  9.5698e-02, -1.2962e+00],
         [ 1.4414e+00,  6.7954e-01,  1.6368e-01,  6.5510e-01,  1.9676e-01,
           2.7868e-01,  1.1996e-02, -7.4251e-01],
         [-4.7617e-01, -1.3327e+00,  1.9251e+00, -6.8176e-01,  7.5115e-02,
           5.3887e-01,  2.2054e-01, -2.0816e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01]],

        [[ 1.3878e-01, -6.1272e-01, -9.2627e-01,  8.2591e-01, -4.9490e-01,
           1.4858e+00,  3.7874e-01,  1.6428e-01],
         [ 1.6573e+00, -1.2150e+00, -1.8417e-01,  6.2360e-01,  6.1281e-01,
          -2.2841e-03,  8.1279e-01,  2.9292e-01],
         [ 6.9719e-01,  3.5959e-01,  1.0445e+00,  1.2747e+00,  2.3077e+00,
           5.2847e-01,  1.1980e+00, -6.0787e-01],
         [ 2.5983e+00,  2.8562e+00,  6.5606e-01, -2.2477e-01,  1.8020e-01,
           1.8544e+00,  1.2822e+00, -1.0173e+00],
         [ 2.5266e-01,  1.1753e+00, -2.5657e-01, -1.7501e+00,  2.5095e+00,
           1.4618e+00,  5.3141e-01, -1.0419e+00],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01]],

        [[ 6.4874e-01, -1.2360e+00,  6.8337e-01,  6.0631e-01, -1.6179e+00,
          -1.8304e+00,  1.1675e+00, -1.3559e+00],
         [ 1.0240e+00, -1.5537e+00, -9.4666e-01, -1.5513e+00,  2.9823e-02,
          -3.6872e-01, -1.4232e+00, -4.1756e-01],
         [ 3.0624e+00, -8.0635e-01,  2.0955e+00,  2.7434e-02, -1.0448e+00,
          -1.3578e+00, -1.2429e+00, -9.7899e-01],
         [ 5.8301e-01,  5.7118e-01,  8.3664e-02, -9.9143e-01, -5.9037e-01,
           1.4771e-02,  7.2694e-01, -3.0060e-01],
         [-6.9838e-01, -3.6387e-01, -4.6559e-01, -2.0434e+00, -2.3196e+00,
          -9.8511e-01, -1.8809e-01, -5.3997e-01],
         [-1.0637e+00,  1.0115e+00, -1.3071e+00, -2.4907e-01, -2.4333e-02,
          -4.5905e-01,  9.4616e-01,  5.4789e-01],
         [ 7.7480e-01, -3.0079e-01, -1.7079e-01,  6.4207e-01, -8.1697e-02,
           1.4789e+00,  7.9172e-01, -5.1938e-01],
         [ 5.0799e-01,  8.9652e-01, -1.6079e+00, -1.1147e+00,  1.5580e-01,
           8.5131e-01, -7.9493e-01,  1.8839e+00],
         [-2.8777e-01,  4.7038e-01,  1.1657e+00, -3.4352e-01,  2.4759e-01,
           1.7312e+00, -5.9322e-01,  2.5661e+00],
         [-6.4382e-01,  7.6634e-01, -2.5152e-02, -3.9127e-01,  3.1379e-02,
           1.0803e+00, -2.6616e-01, -9.6649e-02]],

        [[ 3.9309e-01,  5.3615e-01,  1.4154e+00,  1.2089e+00,  1.5527e+00,
           1.2730e+00,  4.5496e-01,  6.8353e-01],
         [ 5.6372e-01, -1.1905e+00,  7.8466e-01, -9.8275e-01, -1.4256e+00,
          -1.4576e-01, -9.5380e-02, -1.5898e-01],
         [ 1.5278e+00,  8.1257e-01,  6.3651e-01,  7.1092e-01, -4.2330e-02,
           2.6004e-01, -6.3720e-01,  9.4828e-01],
         [-8.6807e-01,  1.1268e+00, -7.2726e-01, -1.0275e+00, -3.0366e-01,
           1.2544e+00, -7.0513e-02, -1.0134e+00],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01]],

        [[ 1.8276e+00,  2.1958e+00,  7.5264e-02, -1.2217e-03,  1.6027e-01,
          -4.3237e-01,  1.4135e-01, -9.1643e-01],
         [ 5.8301e-01,  5.7118e-01,  8.3664e-02, -9.9143e-01, -5.9037e-01,
           1.4771e-02,  7.2694e-01, -3.0060e-01],
         [ 6.9719e-01,  3.5959e-01,  1.0445e+00,  1.2747e+00,  2.3077e+00,
           5.2847e-01,  1.1980e+00, -6.0787e-01],
         [ 1.8276e+00,  2.1958e+00,  7.5264e-02, -1.2217e-03,  1.6027e-01,
          -4.3237e-01,  1.4135e-01, -9.1643e-01],
         [-1.4659e-01, -1.5753e+00,  2.2311e+00, -1.0745e+00,  5.2471e-03,
          -4.5582e-01, -4.2744e-01, -4.0704e-01],
         [-2.0087e-01, -1.3524e+00,  9.0261e-01,  1.3093e-01, -9.6100e-02,
          -5.0534e-02,  1.4622e+00, -9.9551e-01],
         [ 6.4874e-01, -1.2360e+00,  6.8337e-01,  6.0631e-01, -1.6179e+00,
          -1.8304e+00,  1.1675e+00, -1.3559e+00],
         [-1.4659e-01, -1.5753e+00,  2.2311e+00, -1.0745e+00,  5.2471e-03,
          -4.5582e-01, -4.2744e-01, -4.0704e-01],
         [ 2.1318e-01,  8.9759e-02,  1.1890e+00, -9.0741e-01, -2.3283e+00,
           8.3807e-01, -2.7013e+00, -1.0480e+00],
         [ 5.7980e-01,  1.3983e+00, -4.4109e-01, -6.0635e-01,  1.6694e+00,
          -1.7608e+00,  3.4570e-01,  8.3854e-01]]],
       grad_fn=<EmbeddingBackward>)
torch.Size([5, 10, 8])

Mask 구축

True는 attention이 적용될 부분, False는 masking될 자리입니다.

[9]
padding_mask = (batch != pad_id).unsqueeze(1)  # (B, 1, L)
 
print(padding_mask)
print(padding_mask.shape)
tensor([[[ True,  True,  True,  True,  True,  True,  True,  True, False, False]],

        [[ True,  True,  True,  True,  True, False, False, False, False, False]],

        [[ True,  True,  True,  True,  True,  True,  True,  True,  True,  True]],

        [[ True,  True,  True,  True, False, False, False, False, False, False]],

        [[ True,  True,  True,  True,  True,  True,  True,  True,  True, False]]])
torch.Size([5, 1, 10])

[10]
nopeak_mask = torch.ones([1, max_len, max_len], dtype=torch.bool)  # (1, L, 
L)
nopeak_mask = torch.tril(nopeak_mask)  # (1, L, L)
 
print(nopeak_mask)
print(nopeak_mask.shape)
tensor([[[ True, False, False, False, False, False, False, False, False, False],
         [ True,  True, False, False, False, False, False, False, False, False],
         [ True,  True,  True, False, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True,  True, False, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True,  True, False],
         [ True,  True,  True,  True,  True,  True,  True,  True,  True,  True]]])
torch.Size([1, 10, 10])

[11]
mask = padding_mask & nopeak_mask  # (B, L, L)
 
print(mask)
print(mask.shape)
tensor([[[ True, False, False, False, False, False, False, False, False, False],
         [ True,  True, False, False, False, False, False, False, False, False],
         [ True,  True,  True, False, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True,  True, False, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True, False, False]],

        [[ True, False, False, False, False, False, False, False, False, False],
         [ True,  True, False, False, False, False, False, False, False, False],
         [ True,  True,  True, False, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False]],

        [[ True, False, False, False, False, False, False, False, False, False],
         [ True,  True, False, False, False, False, False, False, False, False],
         [ True,  True,  True, False, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True,  True, False, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True,  True, False],
         [ True,  True,  True,  True,  True,  True,  True,  True,  True,  True]],

        [[ True, False, False, False, False, False, False, False, False, False],
         [ True,  True, False, False, False, False, False, False, False, False],
         [ True,  True,  True, False, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False]],

        [[ True, False, False, False, False, False, False, False, False, False],
         [ True,  True, False, False, False, False, False, False, False, False],
         [ True,  True,  True, False, False, False, False, False, False, False],
         [ True,  True,  True,  True, False, False, False, False, False, False],
         [ True,  True,  True,  True,  True, False, False, False, False, False],
         [ True,  True,  True,  True,  True,  True, False, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True, False, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True, False, False],
         [ True,  True,  True,  True,  True,  True,  True,  True,  True, False],
         [ True,  True,  True,  True,  True,  True,  True,  True,  True, False]]])
torch.Size([5, 10, 10])

Linear transformation & 여러 head로 나누기

[12]
w_q = nn.Linear(d_model, d_model)
w_k = nn.Linear(d_model, d_model)
w_v = nn.Linear(d_model, d_model)
 
w_0 = nn.Linear(d_model, d_model)

[13]
q = w_q(batch_emb)  # (B, L, d_model)
k = w_k(batch_emb)  # (B, L, d_model)
v = w_v(batch_emb)  # (B, L, d_model)
 
batch_size = q.shape[0]
d_k = d_model // num_heads
 
q = q.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
k = k.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
v = v.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
 
q = q.transpose(1, 2)  # (B, num_heads, L, d_k)
k = k.transpose(1, 2)  # (B, num_heads, L, d_k)
v = v.transpose(1, 2)  # (B, num_heads, L, d_k)
 
print(q.shape)
print(k.shape)
print(v.shape)
torch.Size([5, 2, 10, 4])
torch.Size([5, 2, 10, 4])
torch.Size([5, 2, 10, 4])

Masking이 적용된 self-attention 구현

[14]
attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)  # (B, 
num_heads, L, L)

[15]
masks = mask.unsqueeze(1)  # (B, 1, L, L)
# head가 추가됐기 때문에 head만큼 반복해줘야 해서 1만큼 unsqueeze를 해줬다고 
한다.
masked_attn_scores = attn_scores.masked_fill_(masks == False, -1 * inf)  # 
(B, num_heads, L, L)
 
print(masked_attn_scores)
print(masked_attn_scores.shape)
tensor([[[[ 4.7637e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 4.0336e-01,  1.5477e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-6.7951e-02,  2.4981e-01, -3.1751e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.7413e-01, -6.5847e-02,  7.6012e-01,  5.9436e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.6878e-01,  1.2790e-01, -7.6460e-02,  1.0074e-01,  1.0696e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.2281e-01,  1.8613e-01, -4.6751e-01,  1.1887e-01, -1.5257e-01,
           -2.7174e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 4.0118e-02,  7.6968e-02, -1.7419e-01,  3.8869e-03,  5.2239e-02,
            1.3832e-01, -1.2507e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 4.0336e-01,  1.5477e-02, -7.8466e-02,  7.1126e-02,  2.9099e-01,
            2.6656e-01, -2.8050e-02,  1.5477e-02, -1.0000e+12, -1.0000e+12],
          [ 9.2820e-02,  1.7372e-01,  1.3079e-02,  1.8945e-01, -2.2064e-01,
           -2.8560e-01, -3.8994e-02,  1.7372e-01, -1.0000e+12, -1.0000e+12],
          [ 9.2820e-02,  1.7372e-01,  1.3079e-02,  1.8945e-01, -2.2064e-01,
           -2.8560e-01, -3.8994e-02,  1.7372e-01, -1.0000e+12, -1.0000e+12]],

         [[ 3.0696e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.3713e-02, -3.8888e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 2.5046e-01,  2.0949e-01,  2.6518e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-5.5559e-01,  2.2722e-01, -1.9210e-01, -3.1048e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-3.3784e-01, -1.2469e-01,  2.6978e-04, -5.4546e-01, -2.2231e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 2.3411e-01, -2.9132e-01,  9.4263e-04,  5.5149e-02, -5.4124e-02,
            3.6974e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 5.9486e-01,  2.5571e-01,  4.5128e-01,  6.3356e-01,  3.5252e-01,
            3.4562e-01, -4.0415e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.3713e-02, -3.8888e-01,  4.4088e-04, -5.7006e-01, -3.5372e-01,
            9.7312e-02, -3.1540e-02, -3.8888e-01, -1.0000e+12, -1.0000e+12],
          [ 8.1846e-01, -7.7122e-02,  4.6495e-01,  4.2805e-01,  1.1123e-01,
            5.6259e-01, -5.6964e-01, -7.7122e-02, -1.0000e+12, -1.0000e+12],
          [ 8.1846e-01, -7.7122e-02,  4.6495e-01,  4.2805e-01,  1.1123e-01,
            5.6259e-01, -5.6964e-01, -7.7122e-02, -1.0000e+12, -1.0000e+12]]],


        [[[-1.3960e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.6457e-01, -1.8845e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.2020e-01,  7.4878e-01,  5.0221e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 9.2887e-02,  4.7570e-01,  2.9805e-01, -1.8933e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.2282e-01,  7.2596e-01,  2.9831e-01, -2.5718e-01, -1.7101e+00,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.1973e-01,  7.2967e-03, -1.9194e-01, -3.9124e-02, -5.8100e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.1973e-01,  7.2967e-03, -1.9194e-01, -3.9124e-02, -5.8100e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.1973e-01,  7.2967e-03, -1.9194e-01, -3.9124e-02, -5.8100e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.1973e-01,  7.2967e-03, -1.9194e-01, -3.9124e-02, -5.8100e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.1973e-01,  7.2967e-03, -1.9194e-01, -3.9124e-02, -5.8100e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12]],

         [[ 4.4586e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 2.4805e-01, -1.9373e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-3.4653e-01, -6.7971e-01, -6.4486e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 4.6247e-02, -1.0307e+00, -2.2533e+00, -1.7807e+00, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-3.3956e-01, -1.1370e+00, -1.2380e+00, -5.0333e-01, -2.0255e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.0716e-02, -6.5803e-01, -1.4617e+00, -1.1117e+00, -8.4180e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.0716e-02, -6.5803e-01, -1.4617e+00, -1.1117e+00, -8.4180e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.0716e-02, -6.5803e-01, -1.4617e+00, -1.1117e+00, -8.4180e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.0716e-02, -6.5803e-01, -1.4617e+00, -1.1117e+00, -8.4180e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.0716e-02, -6.5803e-01, -1.4617e+00, -1.1117e+00, -8.4180e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12]]],


        [[[-5.5858e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.3713e+00,  3.1185e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.6621e+00,  9.3574e-01, -5.5574e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.2074e-01, -1.0291e-01, -1.9896e-01,  4.5147e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.3240e+00,  3.3535e-01, -7.6370e-01,  1.4674e-01,  2.4826e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 4.3187e-01, -4.9049e-01, -2.7165e-01,  4.5427e-02,  2.6163e-01,
            2.2556e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.9720e-01, -3.9120e-01, -2.4132e-01, -9.5560e-02, -1.1611e-01,
            8.7099e-02, -1.1915e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-6.2815e-01, -6.7362e-01, -1.1487e+00,  2.2814e-01,  4.1933e-01,
            6.7831e-01,  9.8324e-02,  7.0435e-01, -1.0000e+12, -1.0000e+12],
          [ 7.8095e-02, -3.5943e-01, -6.1643e-01,  6.0242e-02,  4.2268e-01,
            3.6293e-01,  5.3020e-02, -2.5441e-02,  2.9505e-01, -1.0000e+12],
          [ 2.9748e-01, -5.2630e-01, -2.6692e-01,  1.8622e-02,  1.6033e-02,
            1.8395e-01,  3.2762e-02, -2.4421e-01,  2.4621e-01, -3.8580e-02]],

         [[ 8.8483e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.8341e-01,  3.9749e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 9.5037e-01,  8.4297e-01, -1.1219e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 7.8095e-01,  5.1285e-01,  3.5245e-02,  2.2964e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 7.2292e-01,  8.4798e-01,  6.7199e-01,  1.4567e-01,  1.0198e+00,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 4.5190e-01,  3.6850e-01,  3.8342e-01,  1.0475e-01,  5.3902e-01,
           -4.8990e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.3664e-01,  1.0679e-01, -1.2078e-01,  7.9969e-02,  3.3342e-01,
           -8.0699e-02,  2.1315e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 2.3649e-01,  5.4584e-01, -1.9944e-01,  1.2506e-01,  8.4549e-01,
           -3.4700e-02,  3.1539e-01, -6.3801e-02, -1.0000e+12, -1.0000e+12],
          [-3.6674e-01, -1.4907e-01, -3.9890e-01, -5.3958e-02, -2.9095e-01,
           -5.9863e-02,  1.4150e-01, -4.4966e-02,  1.2219e-01, -1.0000e+12],
          [-1.2761e-03,  1.0568e-01, -1.9336e-01,  2.1486e-02,  2.4646e-01,
            6.9932e-02, -3.2433e-03, -3.7407e-03, -1.6667e-02,  1.0430e-01]]],


        [[[-1.0113e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-2.0663e-01, -3.4611e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-2.9826e-02, -1.8627e-01, -2.0277e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 3.6179e-01,  1.0622e-01,  1.2711e-01, -3.1751e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 8.9095e-02,  2.5991e-01,  1.3676e-01,  1.3079e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 8.9095e-02,  2.5991e-01,  1.3676e-01,  1.3079e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 8.9095e-02,  2.5991e-01,  1.3676e-01,  1.3079e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 8.9095e-02,  2.5991e-01,  1.3676e-01,  1.3079e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 8.9095e-02,  2.5991e-01,  1.3676e-01,  1.3079e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 8.9095e-02,  2.5991e-01,  1.3676e-01,  1.3079e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12]],

         [[-3.0940e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-3.4044e-01,  5.0485e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-6.1672e-01,  5.7552e-01, -4.5673e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-3.5909e-01,  2.8637e-01, -2.8371e-01,  2.6518e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.4753e+00,  5.8035e-01, -8.2558e-01,  4.6495e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.4753e+00,  5.8035e-01, -8.2558e-01,  4.6495e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.4753e+00,  5.8035e-01, -8.2558e-01,  4.6495e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.4753e+00,  5.8035e-01, -8.2558e-01,  4.6495e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.4753e+00,  5.8035e-01, -8.2558e-01,  4.6495e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.4753e+00,  5.8035e-01, -8.2558e-01,  4.6495e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12]]],


        [[[-2.8563e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-2.4263e-02,  4.5147e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-5.8976e-01, -2.1452e-01,  5.0221e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-2.8563e-02,  3.2587e-02,  1.0890e-01, -2.8563e-02, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.9209e-01, -6.2004e-02, -4.7334e-02,  1.9209e-01, -6.0634e-02,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-1.8172e-01, -1.7188e-01,  2.1711e-01, -1.8172e-01,  2.6872e-01,
            3.7224e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 2.4097e-01, -1.4395e-01,  4.1687e-02,  2.4097e-01, -5.4559e-02,
           -3.5269e-01, -5.5858e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.9209e-01, -6.2004e-02, -4.7334e-02,  1.9209e-01, -6.0634e-02,
           -2.6342e-01, -3.4811e-01, -6.0634e-02, -1.0000e+12, -1.0000e+12],
          [ 4.9793e-01,  9.6707e-02, -9.1980e-02,  4.9793e-01, -5.1975e-01,
           -9.9177e-01, -1.7358e+00, -5.1975e-01,  2.7955e-01, -1.0000e+12],
          [-1.8620e-01,  8.5844e-02, -1.9194e-01, -1.8620e-01,  3.6767e-02,
            1.8844e-01,  3.0871e-01,  3.6767e-02,  2.6375e-01, -1.0000e+12]],

         [[-8.2484e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-4.9804e-01,  2.2964e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 6.2210e-02,  9.8633e-02, -6.4486e-01, -1.0000e+12, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-8.2484e-01,  3.5734e-01, -1.9387e+00, -8.2484e-01, -1.0000e+12,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.2728e-01,  1.2025e-02, -2.8253e-01,  1.2728e-01, -3.7051e-01,
           -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.2581e-01,  5.4310e-02, -1.8193e-01,  1.2581e-01, -2.2922e-01,
           -5.5643e-02, -1.0000e+12, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [-2.3377e-01,  1.7875e-01, -7.1560e-01, -2.3377e-01,  4.8038e-01,
            2.6586e-01,  8.8483e-01, -1.0000e+12, -1.0000e+12, -1.0000e+12],
          [ 1.2728e-01,  1.2025e-02, -2.8253e-01,  1.2728e-01, -3.7051e-01,
           -2.2962e-01, -2.0968e-02, -3.7051e-01, -1.0000e+12, -1.0000e+12],
          [-5.0137e-01,  5.3234e-03, -2.2427e-01, -5.0137e-01,  7.3389e-01,
            2.6270e-01,  8.9148e-02,  7.3389e-01,  6.9793e-01, -1.0000e+12],
          [-4.6310e-01,  2.6777e-01, -1.4617e+00, -4.6310e-01,  9.2073e-02,
            1.7478e-01,  8.4084e-01,  9.2073e-02,  7.2260e-01, -1.0000e+12]]]],
       grad_fn=<MaskedFillBackward0>)
torch.Size([5, 2, 10, 10])

-1* inf로 masking된 부분은 softmax 후 0이 됩니다.

[16]
attn_dists = F.softmax(masked_attn_scores, dim=-1)  # (B, num_heads, L, L)
 
print(attn_dists)
print(attn_dists.shape)
tensor([[[[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.5958, 0.4042, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3171, 0.4358, 0.2471, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1688, 0.1881, 0.4297, 0.2133, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2166, 0.2079, 0.1695, 0.2024, 0.2036, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2318, 0.2021, 0.1051, 0.1890, 0.1441, 0.1279, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1477, 0.1532, 0.1192, 0.1424, 0.1495, 0.1629, 0.1252, 0.0000,
           0.0000, 0.0000],
          [0.1637, 0.1111, 0.1011, 0.1175, 0.1463, 0.1428, 0.1064, 0.1111,
           0.0000, 0.0000],
          [0.1336, 0.1448, 0.1233, 0.1471, 0.0976, 0.0915, 0.1171, 0.1448,
           0.0000, 0.0000],
          [0.1336, 0.1448, 0.1233, 0.1471, 0.0976, 0.0915, 0.1171, 0.1448,
           0.0000, 0.0000]],

         [[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.5757, 0.4243, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3362, 0.3227, 0.3412, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1694, 0.3705, 0.2436, 0.2164, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1794, 0.2220, 0.2515, 0.1457, 0.2013, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1955, 0.1156, 0.1549, 0.1635, 0.1466, 0.2239, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1802, 0.1283, 0.1561, 0.1873, 0.1414, 0.1404, 0.0663, 0.0000,
           0.0000, 0.0000],
          [0.1390, 0.1025, 0.1512, 0.0855, 0.1061, 0.1666, 0.1465, 0.1025,
           0.0000, 0.0000],
          [0.2122, 0.0867, 0.1490, 0.1436, 0.1046, 0.1643, 0.0530, 0.0867,
           0.0000, 0.0000],
          [0.2122, 0.0867, 0.1490, 0.1436, 0.1046, 0.1643, 0.0530, 0.0867,
           0.0000, 0.0000]]],


        [[[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.5060, 0.4940, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1906, 0.4544, 0.3551, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2248, 0.3297, 0.2760, 0.1695, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2402, 0.3595, 0.2344, 0.1345, 0.0315, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2910, 0.2129, 0.1745, 0.2033, 0.1182, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2910, 0.2129, 0.1745, 0.2033, 0.1182, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2910, 0.2129, 0.1745, 0.2033, 0.1182, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2910, 0.2129, 0.1745, 0.2033, 0.1182, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2910, 0.2129, 0.1745, 0.2033, 0.1182, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000]],

         [[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.6087, 0.3913, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.4067, 0.2915, 0.3018, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.6243, 0.2126, 0.0626, 0.1004, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2595, 0.1169, 0.1057, 0.2203, 0.2976, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3793, 0.2129, 0.0953, 0.1353, 0.1772, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3793, 0.2129, 0.0953, 0.1353, 0.1772, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3793, 0.2129, 0.0953, 0.1353, 0.1772, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3793, 0.2129, 0.0953, 0.1353, 0.1772, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3793, 0.2129, 0.0953, 0.1353, 0.1772, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000]]],


        [[[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1974, 0.8026, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0573, 0.7695, 0.1732, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2425, 0.2469, 0.2243, 0.2863, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0582, 0.3060, 0.1020, 0.2534, 0.2805, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2365, 0.0940, 0.1170, 0.1607, 0.1994, 0.1924, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2211, 0.1005, 0.1168, 0.1351, 0.1324, 0.1622, 0.1319, 0.0000,
           0.0000, 0.0000],
          [0.0578, 0.0552, 0.0343, 0.1360, 0.1647, 0.2134, 0.1195, 0.2190,
           0.0000, 0.0000],
          [0.1113, 0.0718, 0.0556, 0.1093, 0.1570, 0.1479, 0.1085, 0.1003,
           0.1382, 0.0000],
          [0.1347, 0.0591, 0.0766, 0.1019, 0.1016, 0.1202, 0.1034, 0.0783,
           0.1279, 0.0962]],

         [[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.4467, 0.5533, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.4457, 0.4003, 0.1540, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3552, 0.2717, 0.1685, 0.2047, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2004, 0.2271, 0.1904, 0.1125, 0.2696, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1902, 0.1750, 0.1776, 0.1344, 0.2075, 0.1153, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1473, 0.1429, 0.1138, 0.1392, 0.1793, 0.1185, 0.1590, 0.0000,
           0.0000, 0.0000],
          [0.1201, 0.1636, 0.0777, 0.1074, 0.2208, 0.0916, 0.1299, 0.0889,
           0.0000, 0.0000],
          [0.0855, 0.1064, 0.0828, 0.1170, 0.0923, 0.1163, 0.1422, 0.1180,
           0.1395, 0.0000],
          [0.0961, 0.1069, 0.0793, 0.0983, 0.1231, 0.1032, 0.0959, 0.0958,
           0.0946, 0.1068]]],


        [[[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.5348, 0.4652, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3709, 0.3172, 0.3120, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3255, 0.2521, 0.2574, 0.1650, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2403, 0.2850, 0.2520, 0.2227, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2403, 0.2850, 0.2520, 0.2227, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2403, 0.2850, 0.2520, 0.2227, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2403, 0.2850, 0.2520, 0.2227, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2403, 0.2850, 0.2520, 0.2227, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2403, 0.2850, 0.2520, 0.2227, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000]],

         [[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3004, 0.6996, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1829, 0.6025, 0.2146, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1709, 0.3258, 0.1843, 0.3190, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0565, 0.4417, 0.1083, 0.3935, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0565, 0.4417, 0.1083, 0.3935, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0565, 0.4417, 0.1083, 0.3935, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0565, 0.4417, 0.1083, 0.3935, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0565, 0.4417, 0.1083, 0.3935, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0565, 0.4417, 0.1083, 0.3935, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000]]],


        [[[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.4827, 0.5173, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1840, 0.2677, 0.5483, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2375, 0.2525, 0.2725, 0.2375, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2304, 0.1787, 0.1814, 0.2304, 0.1790, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1281, 0.1293, 0.1908, 0.1281, 0.2009, 0.2228, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1906, 0.1297, 0.1562, 0.1906, 0.1419, 0.1053, 0.0857, 0.0000,
           0.0000, 0.0000],
          [0.1579, 0.1225, 0.1243, 0.1579, 0.1226, 0.1001, 0.0920, 0.1226,
           0.0000, 0.0000],
          [0.1967, 0.1317, 0.1091, 0.1967, 0.0711, 0.0444, 0.0211, 0.0711,
           0.1581, 0.0000],
          [0.0872, 0.1144, 0.0867, 0.0872, 0.1090, 0.1268, 0.1430, 0.1090,
           0.1367, 0.0000]],

         [[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3257, 0.6743, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.3952, 0.4099, 0.1949, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1789, 0.5835, 0.0587, 0.1789, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.2402, 0.2141, 0.1595, 0.2402, 0.1460, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.1923, 0.1790, 0.1413, 0.1923, 0.1348, 0.1604, 0.0000, 0.0000,
           0.0000, 0.0000],
          [0.0919, 0.1389, 0.0568, 0.0919, 0.1877, 0.1515, 0.2813, 0.0000,
           0.0000, 0.0000],
          [0.1579, 0.1407, 0.1048, 0.1579, 0.0960, 0.1105, 0.1362, 0.0960,
           0.0000, 0.0000],
          [0.0523, 0.0868, 0.0690, 0.0523, 0.1798, 0.1122, 0.0944, 0.1798,
           0.1735, 0.0000],
          [0.0596, 0.1238, 0.0220, 0.0596, 0.1038, 0.1128, 0.2195, 0.1038,
           0.1951, 0.0000]]]], grad_fn=<SoftmaxBackward>)
torch.Size([5, 2, 10, 10])

[17]
attn_values = torch.matmul(attn_dists, v)  # (B, num_heads, L, d_k)
 
print(attn_values.shape)
torch.Size([5, 2, 10, 4])

전체 코드

[18]
class MultiheadAttention(nn.Module):
  def __init__(self):
    super(MultiheadAttention, self).__init__()
 
    # Q, K, V learnable matrices
    self.w_q = nn.Linear(d_model, d_model)
    self.w_k = nn.Linear(d_model, d_model)
    self.w_v = nn.Linear(d_model, d_model)
 
    # Linear transformation for concatenated outputs
    self.w_0 = nn.Linear(d_model, d_model)
 
  def forward(self, q, k, v, mask=None):
    batch_size = q.shape[0]
 
    q = self.w_q(q)  # (B, L, d_model)
    k = self.w_k(k)  # (B, L, d_model)
    v = self.w_v(v)  # (B, L, d_model)
 
    q = q.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
    k = k.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
    v = v.view(batch_size, -1, num_heads, d_k)  # (B, L, num_heads, d_k)
 
    q = q.transpose(1, 2)  # (B, num_heads, L, d_k)
    k = k.transpose(1, 2)  # (B, num_heads, L, d_k)
    v = v.transpose(1, 2)  # (B, num_heads, L, d_k)
 
    attn_values = self.self_attention(q, k, v, mask=mask)  # (B, num_heads, 
L, d_k)
    attn_values = attn_values.transpose(1, 2).contiguous().view(batch_size, 
-1, d_model)  # (B, L, num_heads, d_k) => (B, L, d_model)
 
    return self.w_0(attn_values)
 
  def self_attention(self, q, k, v, mask=None):
    attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)  # 
(B, num_heads, L, L)
 
    if mask is not None:
      mask = mask.unsqueeze(1)  # (B, 1, L, L) or  (B, 1, 1, L)
      attn_scores = attn_scores.masked_fill_(mask == False, -1*inf)
 
    attn_dists = F.softmax(attn_scores, dim=-1)  # (B, num_heads, L, L)
 
    attn_values = torch.matmul(attn_dists, v)  # (B, num_heads, L, d_k)
 
    return attn_values

[19]
multihead_attn = MultiheadAttention()
 
outputs = multihead_attn(batch_emb, batch_emb, batch_emb, mask=mask)  # (B, 
L, d_model)

[20]
print(outputs)
print(outputs.shape)
tensor([[[ 0.0144,  0.1497,  0.1135,  1.3092,  0.9384,  0.3099, -0.1766,
          -0.5622],
         [-0.2898,  0.0896,  0.1427,  0.8015,  0.4785,  0.0681,  0.0933,
          -0.4136],
         [-0.3018, -0.0423, -0.0087,  0.4880,  0.5833, -0.1454,  0.1864,
          -0.2006],
         [-0.4746,  0.2947,  0.0155,  0.5849,  0.3672, -0.1584,  0.2451,
          -0.2677],
         [-0.4331,  0.4161, -0.0199,  0.6722,  0.3977, -0.1417,  0.2226,
          -0.2819],
         [-0.2968,  0.3491, -0.1067,  0.6743,  0.5806, -0.0976,  0.1937,
          -0.2695],
         [-0.2873,  0.2195, -0.0550,  0.4832,  0.3601, -0.0188,  0.2223,
          -0.3254],
         [-0.3359,  0.1678, -0.0062,  0.4428,  0.3006, -0.0507,  0.2521,
          -0.2963],
         [-0.2698,  0.2142, -0.0160,  0.5737,  0.4235, -0.0383,  0.2095,
          -0.2744],
         [-0.2698,  0.2142, -0.0160,  0.5737,  0.4235, -0.0383,  0.2095,
          -0.2744]],

        [[-0.1768, -0.0337,  0.3418,  0.6498,  0.1639,  0.2566,  0.0251,
          -0.3522],
         [-0.0263, -0.0877,  0.3811,  0.5641, -0.0212,  0.4380,  0.0564,
          -0.4133],
         [-0.0217, -0.1415,  0.3251,  0.3769, -0.1307,  0.4615,  0.1472,
          -0.4424],
         [-0.0246, -0.4154,  0.2211, -0.0939, -0.2521,  0.4058,  0.2911,
          -0.3925],
         [-0.0876, -0.3316,  0.1590, -0.0801, -0.1808,  0.3044,  0.3026,
          -0.3570],
         [-0.0793, -0.3021,  0.1924, -0.0047, -0.1807,  0.3280,  0.2785,
          -0.3688],
         [-0.0793, -0.3021,  0.1924, -0.0047, -0.1807,  0.3280,  0.2785,
          -0.3688],
         [-0.0793, -0.3021,  0.1924, -0.0047, -0.1807,  0.3280,  0.2785,
          -0.3688],
         [-0.0793, -0.3021,  0.1924, -0.0047, -0.1807,  0.3280,  0.2785,
          -0.3688],
         [-0.0793, -0.3021,  0.1924, -0.0047, -0.1807,  0.3280,  0.2785,
          -0.3688]],

        [[ 0.0925, -0.2645,  0.2301,  0.8331,  0.6290,  0.4479, -0.0454,
          -0.4824],
         [-0.0289,  0.2087,  0.0284,  0.5535,  0.2514,  0.0563,  0.1032,
          -0.2719],
         [ 0.0734,  0.0038,  0.0775,  0.3035, -0.0467,  0.2196,  0.1020,
          -0.4090],
         [ 0.1093, -0.1755,  0.1103,  0.3176,  0.1820,  0.2193,  0.1487,
          -0.2609],
         [-0.0246, -0.0402, -0.0474,  0.3214,  0.3845,  0.0386,  0.1519,
          -0.2278],
         [-0.0277, -0.1558,  0.0172,  0.2918,  0.3786,  0.0965,  0.1986,
          -0.1995],
         [-0.0653, -0.2249,  0.0930,  0.1910,  0.1728,  0.1516,  0.2128,
          -0.2602],
         [-0.0925, -0.2369,  0.0983,  0.0908,  0.1850, -0.0380,  0.3283,
           0.0092],
         [-0.1878, -0.3238,  0.1693,  0.0309,  0.0890, -0.0245,  0.3728,
          -0.0209],
         [-0.1793, -0.2081,  0.0681,  0.0427,  0.1342, -0.0089,  0.3275,
          -0.1020]],

        [[-0.0979, -0.3978,  0.2622, -0.3837, -0.6509,  0.4486,  0.4687,
          -0.3805],
         [-0.1681, -0.2912,  0.2294, -0.0610, -0.2760,  0.2384,  0.3482,
          -0.3007],
         [-0.0446, -0.3829,  0.2550, -0.1610, -0.3536,  0.2851,  0.3518,
          -0.2386],
         [-0.1189, -0.2787,  0.0283, -0.2147, -0.1060,  0.1434,  0.3567,
          -0.2334],
         [-0.1640, -0.3223,  0.1416, -0.1231, -0.1249,  0.0697,  0.3680,
          -0.1537],
         [-0.1640, -0.3223,  0.1416, -0.1231, -0.1249,  0.0697,  0.3680,
          -0.1537],
         [-0.1640, -0.3223,  0.1416, -0.1231, -0.1249,  0.0697,  0.3680,
          -0.1537],
         [-0.1640, -0.3223,  0.1416, -0.1231, -0.1249,  0.0697,  0.3680,
          -0.1537],
         [-0.1640, -0.3223,  0.1416, -0.1231, -0.1249,  0.0697,  0.3680,
          -0.1537],
         [-0.1640, -0.3223,  0.1416, -0.1231, -0.1249,  0.0697,  0.3680,
          -0.1537]],

        [[ 0.2386, -0.8116, -0.0987, -0.8957, -0.2766,  0.2600,  0.5507,
          -0.0985],
         [-0.0426, -0.6154, -0.0750, -0.5514, -0.0237,  0.1282,  0.4729,
          -0.1658],
         [-0.0397, -0.4395,  0.0520, -0.2962, -0.1769,  0.3056,  0.4293,
          -0.3281],
         [ 0.0077, -0.5226, -0.0144, -0.4651, -0.1768,  0.2642,  0.4592,
          -0.2693],
         [-0.0573, -0.3984, -0.0025, -0.3258, -0.1420,  0.1969,  0.4423,
          -0.2659],
         [-0.1514, -0.2093,  0.0159, -0.0258, -0.0172,  0.2169,  0.3462,
          -0.3935],
         [-0.1374, -0.1000, -0.0064,  0.1789,  0.1111,  0.2921,  0.2488,
          -0.5185],
         [-0.1135, -0.2408,  0.0513,  0.0704,  0.0714,  0.2074,  0.3071,
          -0.3553],
         [-0.0981, -0.3065,  0.0201, -0.1530, -0.0656,  0.1096,  0.3669,
          -0.2580],
         [-0.0758, -0.3004,  0.0695,  0.0510,  0.1120,  0.1087,  0.3016,
          -0.2206]]], grad_fn=<AddBackward0>)
torch.Size([5, 10, 8])

Encoder-Decoder attention

Query, key, value만 달라질 뿐 구현은 동일합니다.
Decoder에 들어갈 batch만 별도 구현하겠습니다.

[21]
trg_data = [
  [33, 11, 49, 10],
  [88, 34, 5, 29, 99, 45, 11, 25],
  [67, 25, 15, 90, 54, 4, 92, 10, 46, 20, 88 ,19],
  [16, 58, 91, 47, 12, 5, 8],
  [71, 63, 62, 7, 9, 11, 55, 91, 32, 48]
]
 
trg_data, trg_max_len = padding(trg_data)
100%|██████████| 5/5 [00:00<00:00, 4245.25it/s]
Maximum sequence length: 12

[22]
# S_L: source maximum sequence length, T_L: target maximum sequence length
src_batch = batch  # (B, S_L)
trg_batch = torch.LongTensor(trg_data)  # (B, T_L)
 
print(src_batch.shape)
print(trg_batch.shape)
torch.Size([5, 10])
torch.Size([5, 12])

[23]
src_emb = embedding(src_batch)  # (B, S_L, d_w)
trg_emb = embedding(trg_batch)  # (B, T_L, d_w)
 
print(src_emb.shape)
print(trg_emb.shape)
torch.Size([5, 10, 8])
torch.Size([5, 12, 8])

src_emb를 encoder에서 나온 결과, 그리고 trg_emb를 masked multi-head attention 후 결과로 가정합니다.

[24]
q = w_q(trg_emb)  # (B, T_L, d_model)
k = w_k(src_emb)  # (B, S_L, d_model)
v = w_v(src_emb)  # (B, S_L, d_model)
# 디버그모드에서 query엔 디코더입력에서 나온거, k, v엔 인코더에서 나온거
 
batch_size = q.shape[0]
d_k = d_model // num_heads
 
q = q.view(batch_size, -1, num_heads, d_k)  # (B, T_L, num_heads, d_k)
k = k.view(batch_size, -1, num_heads, d_k)  # (B, S_L, num_heads, d_k)
v = v.view(batch_size, -1, num_heads, d_k)  # (B, S_L, num_heads, d_k)
 
q = q.transpose(1, 2)  # (B, num_heads, T_L, d_k)
k = k.transpose(1, 2)  # (B, num_heads, S_L, d_k)
v = v.transpose(1, 2)  # (B, num_heads, S_L, d_k)
 
print(q.shape)
print(k.shape)
print(v.shape)
torch.Size([5, 2, 12, 4])
torch.Size([5, 2, 10, 4])
torch.Size([5, 2, 10, 4])

[25]
attn_scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)  # (B, 
num_heads, T_L, S_L)
attn_dists = F.softmax(attn_scores, dim=-1)  # (B, num_heads, T_L, S_L)
 
print(attn_dists.shape)
torch.Size([5, 2, 12, 10])

[26]
attn_values = torch.matmul(attn_dists, v)  # (B, num_heads, T_L, d_k)
 
print(attn_values.shape)
torch.Size([5, 2, 12, 4])

Masked multi-head attention 후 나온 결과와 동일한 shape를 가지며 이후 layer에서 전체 연산도 동일하게 진행됩니다.

==================================

과제 / 퀴즈

https://wikidocs.net/22592

Natural Language ProcessingAssignment 4: Byte Pair Encoding1. Introduction일반적으로 하나의 단어에 대해 하나의 embedding을 생성할 경우 out-of-vocabulary(OOV)라는 치명적인 문제를 갖게 됩니다. 학습 데이터에서 등장하지 않은 단어가 나오는 경우 Unknown token으로 처리해주어 모델의 입력으로 넣게 되면서 전체적으로 모델의 성능이 저하될 수 있습니다. 반면 모든 단어의 embedding을 만들기에는 필요한 embedding parameter의 수가 지나치게 많습니다. 이러한 문제를 해결하기 위해 컴퓨터가 이해하는 단어를 표현하는 데에 데이터 압축 알고리즘 중 하나인 byte pair encoding 기법을 적용한 sub-word tokenizaiton이라는 개념이 나타났습니다.
본 과제에서는 byte pair encoding을 이용한 간단한 sub-word tokenizer를 구현해봅니다. 과제 노트북의 지시사항과 각 함수의 docstring과 논문의 3페이지 algorithm 1 참고하여 build_bpe 함수를 완성하고 모든 test case를 통과해주세요.

https://wikidocs.net/22592

[1]
import re, collections
 
def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs
 
def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out
 
vocab = {'l o w </w>' : 5, 'l o w e r </w>' : 2,
'n e w e s t </w>':6, 'w i d e s t </w>':3}
num_merges = 10
for i in range(num_merges):
    print(i)
    pairs = get_stats(vocab)
    print(pairs)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)
    print(vocab)
0
defaultdict(<class 'int'>, {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 8, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('e', 's'): 9, ('s', 't'): 9, ('t', '</w>'): 9, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'e'): 3})
('e', 's')
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w es t </w>': 6, 'w i d es t </w>': 3}
1
defaultdict(<class 'int'>, {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'es'): 6, ('es', 't'): 9, ('t', '</w>'): 9, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'es'): 3})
('es', 't')
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est </w>': 6, 'w i d est </w>': 3}
2
defaultdict(<class 'int'>, {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est'): 6, ('est', '</w>'): 9, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est'): 3})
('est', '</w>')
{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}
3
defaultdict(<class 'int'>, {('l', 'o'): 7, ('o', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('l', 'o')
{'lo w </w>': 5, 'lo w e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}
4
defaultdict(<class 'int'>, {('lo', 'w'): 7, ('w', '</w>'): 5, ('w', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('lo', 'w')
{'low </w>': 5, 'low e r </w>': 2, 'n e w est</w>': 6, 'w i d est</w>': 3}
5
defaultdict(<class 'int'>, {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('n', 'e'): 6, ('e', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('n', 'e')
{'low </w>': 5, 'low e r </w>': 2, 'ne w est</w>': 6, 'w i d est</w>': 3}
6
defaultdict(<class 'int'>, {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('ne', 'w'): 6, ('w', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('ne', 'w')
{'low </w>': 5, 'low e r </w>': 2, 'new est</w>': 6, 'w i d est</w>': 3}
7
defaultdict(<class 'int'>, {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('new', 'est</w>'): 6, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('new', 'est</w>')
{'low </w>': 5, 'low e r </w>': 2, 'newest</w>': 6, 'w i d est</w>': 3}
8
defaultdict(<class 'int'>, {('low', '</w>'): 5, ('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('low', '</w>')
{'low</w>': 5, 'low e r </w>': 2, 'newest</w>': 6, 'w i d est</w>': 3}
9
defaultdict(<class 'int'>, {('low', 'e'): 2, ('e', 'r'): 2, ('r', '</w>'): 2, ('w', 'i'): 3, ('i', 'd'): 3, ('d', 'est</w>'): 3})
('w', 'i')
{'low</w>': 5, 'low e r </w>': 2, 'newest</w>': 6, 'wi d est</w>': 3}

2-1.build_bpe 함수를 완성해주세요.

[5]
from collections import defaultdict, Counter
 
corpus = ['low'] * 5 + ['lower'] * 2 + ['newest'] * 6 + ['widest'] * 3
vocab = Counter(corpus)
print(vocab)
print(dict(vocab))
Counter({'newest': 6, 'low': 5, 'widest': 3, 'lower': 2})
{'low': 5, 'lower': 2, 'newest': 6, 'widest': 3}

[51]
from typing import List, Dict, Set
from itertools import chain
import re
from collections import defaultdict, Counter
 
 
def build_bpe(
        corpus: List[str],
        max_vocab_size: int
) -> List[int]:
    """ BPE Vocabulary Builder
    Implement vocabulary builder for byte pair encoding.
    Please sort your idx2word by subword length in descending manner.
 
    Hint: Counter in collection library would be helpful
 
    Note: If you convert sentences list to word frequence dictionary,
          building speed is enhanced significantly because duplicated words 
are
          preprocessed together
 
    Arguments:
    corpus -- List of words to build vocab
    max_vocab_size -- The maximum size of vocab
 
    Return:
    idx2word -- Subword list
    """
    # Special tokens
    PAD = BytePairEncoding.PAD_token  # Index of <PAD> must be 0
    UNK = BytePairEncoding.UNK_token  # Index of <UNK> must be 1
    CLS = BytePairEncoding.CLS_token  # Index of <CLS> must be 2
    SEP = BytePairEncoding.SEP_token  # Index of <SEP> must be 3
    MSK = BytePairEncoding.MSK_token  # Index of <MSK> must be 4
    SPECIAL = [PAD, UNK, CLS, SEP, MSK]
 
    WORD_END = BytePairEncoding.WORD_END  # Use this token as the end of a 
word
    # YOUR CODE HERE
    
    idx2word = set()
    for s in corpus:
        for c in s:
            idx2word.add(c)
 
    stringList = [' '.join(s+WORD_END) for s in corpus]
    vocab = dict(Counter(stringList))
    while len(idx2word) < max_vocab_size-6:
        pairs = get_stats(vocab)
        if not pairs: break
        best = max(pairs, key=pairs.get)
        vocab = merge_vocab(best, vocab)
        idx2word.add(''.join(best))
    
    idx2word = SPECIAL + sorted(list(idx2word),key=len,reverse=True) + 
[WORD_END]
    print(idx2word)
    return idx2word

2-2. build_bpe 함수 평가

[52]
#############################################
# Helper functions below. DO NOT MODIFY!    #
#############################################
 
class BytePairEncoding(object):
    """ Byte Pair Encoding class
    We aren't gonna use this class for encoding. Because it is too 
slow......
    We will use sentence piece Google have made.
    Thus, this class is just for special token index reference.
    """
    PAD_token = '<pad>'
    PAD_token_idx = 0
    UNK_token = '<unk>'
    UNK_token_idx = 1
    CLS_token = '<cls>'
    CLS_token_idx = 2
    SEP_token = '<sep>'
    SEP_token_idx = 3
    MSK_token = '<msk>'
    MSK_token_idx = 4
 
    WORD_END = '_'
 
    def __init__(self, corpus: List[List[str]], max_vocab_size: int) -> 
None:
        self.idx2word = build_bpe(corpus, max_vocab_size)
 
    def encode(self, sentence: List[str]) -> List[int]:
        return encode(sentence, self.idx2word)
 
    def decoder(self, tokens: List[int]) -> List[str]:
        return decode(tokens, self.idx2word)
 
 
#############################################
# Testing functions below.                  #
#############################################
 
 
def test_build_bpe():
    print("======Building BPE Vocab Test Case======")
    PAD = BytePairEncoding.PAD_token
    UNK = BytePairEncoding.UNK_token
    CLS = BytePairEncoding.CLS_token
    SEP = BytePairEncoding.SEP_token
    MSK = BytePairEncoding.MSK_token
    WORD_END = BytePairEncoding.WORD_END
 
    # First test
    corpus = ['abcde']
    vocab = build_bpe(corpus, max_vocab_size=15)
    assert vocab[:5] == [PAD, UNK, CLS, SEP, MSK], \
        "Please insert the special tokens properly"
    print("The first test passed!")
 
    # Second test
    assert sorted(vocab[5:], key=len, reverse=True) == vocab[5:], \
        "Please sort your idx2word by subword length in decsending manner."
    print("The second test passed!")
 
    # Third test
    corpus = ['low'] * 5 + ['lower'] * 2 + ['newest'] * 6 + ['widest'] * 3
    vocab = set(build_bpe(corpus, max_vocab_size=24))
    assert vocab > {PAD, UNK, CLS, SEP, MSK, 'est_', 'low', 'newest_', \
                    'i', 'e', 'n', 't', 'd', 's', 'o', 'l', 'r', 'w',
                    WORD_END} and \
           "low_" not in vocab and "wi" not in vocab and "id" not in vocab, 
\
        "Your bpe result does not match expected result"
    print("The third test passed!")
 
    # forth test
    corpus = ['aaaaaaaaaaaa', 'abababab']
    vocab = set(build_bpe(corpus, max_vocab_size=13))
    assert vocab == {PAD, UNK, CLS, SEP, MSK, 'aaaaaaaa', 'aaaa', 'abab', 
'aa',
                     'ab', 'a', 'b', WORD_END}, \
        "Your bpe result does not match expected result"
    print("The forth test passed!")
 
    # fifth test
    corpus = ['abc', 'bcd']
    vocab = build_bpe(corpus, max_vocab_size=10000)
    assert len(vocab) == 15, \
        "Your bpe result does not match expected result"
    print("The fifth test passed!")
 
    print("All 5 tests passed!")
test_build_bpe()
======Building BPE Vocab Test Case======
['<pad>', '<unk>', '<cls>', '<sep>', '<msk>', 'abcde', 'abcd', 'abc', 'ab', 'c', 'a', 'e', 'b', 'd', '_']
The first test passed!
The second test passed!
['<pad>', '<unk>', '<cls>', '<sep>', '<msk>', 'newest_', 'est_', 'low', 'new', 'est', 'lo', 'es', 'ne', 'o', 'w', 'l', 'e', 's', 'i', 't', 'r', 'n', 'd', '_']
The third test passed!
['<pad>', '<unk>', '<cls>', '<sep>', '<msk>', 'aaaaaaaa', 'aaaa', 'abab', 'aa', 'ab', 'a', 'b', '_']
The forth test passed!
['<pad>', '<unk>', '<cls>', '<sep>', '<msk>', 'abc_', 'bcd_', 'abc', 'bcd', 'bc', 'c', 'a', 'b', 'd', '_']
The fifth test passed!
All 5 tests passed!

==================================

피어세션

복습 및 DACON 데이터 분석 및 전처리 해봄.

===================================

후기

피곤해

빛의 블로그

2021년 2월 18일 목요일

AITech 학습정리-[DAY 19] Transformer, 실습-Multi-head Attention, Masked Multi-head Attention

학습내용

(7강) Transformer

(실습 7강) Multi-head Attention 구현

필요 패키지 import

데이터 전처리

Hyperparameter 세팅 및 embedding

Linear transformation & 여러 head로 나누기

Scaled dot-product self-attention 구현

각 head의 결과물 병합

전체 코드

(실습 8강) Masked Multi-head Attention 구현

필요 패키지 import

데이터 전처리

Hyperparameter 세팅 및 embedding

Mask 구축

Linear transformation & 여러 head로 나누기

Masking이 적용된 self-attention 구현

전체 코드

Encoder-Decoder attention

과제 / 퀴즈

Natural Language Processing

Assignment 4: Byte Pair Encoding

1. Introduction

2-1.build_bpe 함수를 완성해주세요.

2-2. build_bpe 함수 평가

피어세션

후기

댓글 없음:

댓글 쓰기