GPT
# Tag:
- Source/KU_ML2
GPT(Generative Pre-Training Transformer)
pre-trained된 Transformer 모델을 이용해, 예측을 수행하는 모델.
분류, 문장 유사도, 선택, 단어의 함유된(entailment) 뜻 추측 등 다양한 작업을 수행 가능하다.

Upsupervised Pre-Training
우선, 일부 데이터를 이용하여 GPT를 pretrained 시켜놓는다.
해당 pretrained된 모델은 계속해서 공유되어 사용하며, 목적에 맞게 fine-tuning한다.
가 입력 데이터로 둘어올 때:
- Input Embedding: 이전 개의 단어를 포함하낟.
- Initial Hidden state
- Transformer Block:
- Objective function:
Loss function:
Supervised Fine-Tuning
그 후, 목적에 맞게 새로운 dataset으로 fine-tuning 시킨다.
- Dataset: , 개의 text.
- Objective function:
- Loss function:
이 때 Total Loss function은
여기서 는 Hyperparameter