GPT(Generative Pre-Training Transformer)

pre-trained된 Transformer 모델을 이용해, 예측을 수행하는 모델.

분류, 문장 유사도, 선택, 단어의 함유된(entailment) 뜻 추측 등 다양한 작업을 수행 가능하다.

Upsupervised Pre-Training

우선, 일부 데이터를 이용하여 GPT를 pretrained 시켜놓는다.

해당 pretrained된 모델은 계속해서 공유되어 사용하며, 목적에 맞게 fine-tuning한다.

$u = {u_{1}, \dots, u_{n}} (input token sequence)$ 가 입력 데이터로 둘어올 때:

Input Embedding: $U = (u_{- k}, \dots, u_{- 1}),$ 이전 $k$ 개의 단어를 포함하낟.
Initial Hidden state $h_{0} = U W_{e} + W_{p} (token & position embedding) .$
Transformer Block: $h_{l} = TRANSFORMERBLOCK (h_{l - 1}), \forall l \in [1, L] .$
Objective function: $P (u ∣ u_{- k}, \dots, u_{- 1}; Θ) = SOFTMAX (h_{L} W_{e}^{T}) .$

Loss function:

L_{1} (U) = i \sum lo g P (u_{i} ∣ u_{i - k}, \dots, u_{i - 1}; Θ) .

그 후, 목적에 맞게 새로운 dataset으로 fine-tuning 시킨다.

Dataset: $C = {(x^{1}, \dots, x^{m}, y)_{l}}$ , $m$ 개의 text.
Objective function: $P (y ∣ x^{1}, \dots, x^{m}) = SOFTMAX (h_{m}^{T} W_{y}) .$
Loss function: $L_{2} (C) = \sum_{(x, y) \in C} lo g P (y ∣ x^{1}, \dots, x^{m}) .$

이 때 Total Loss function은

L_{3} (C) = L_{2} (C) + λ L_{1} (C)

여기서 $λ$ 는 Hyperparameter