Yiksan0315's Blog

GPT

# Tag:

  • Source/KU_ML2

GPT(Generative Pre-Training Transformer)

pre-trained된 Transformer 모델을 이용해, 예측을 수행하는 모델.

분류, 문장 유사도, 선택, 단어의 함유된(entailment) 뜻 추측 등 다양한 작업을 수행 가능하다.

Upsupervised Pre-Training

우선, 일부 데이터를 이용하여 GPT를 pretrained 시켜놓는다.

해당 pretrained된 모델은 계속해서 공유되어 사용하며, 목적에 맞게 fine-tuning한다.

가 입력 데이터로 둘어올 때:

  • Input Embedding: 이전 개의 단어를 포함하낟.
  • Initial Hidden state
  • Transformer Block:
  • Objective function:

Loss function:

Supervised Fine-Tuning

그 후, 목적에 맞게 새로운 dataset으로 fine-tuning 시킨다.
  • Dataset: , 개의 text.
  • Objective function:
  • Loss function:

이 때 Total Loss function은

여기서 Hyperparameter

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.