더 나은 생성모델을 위해 RLHF로 피드백 학습시키기
RLHF (Reinforcement Learning from Human Feedback)를 사용한 생성모델 피드백 학습
Unsupervised Learning (Pre-training)
- 사전 학습을 통해 대형 생성 모델 (PLM) 을 만듭니다.
- 대형 생성 모델은 강력하지만 의도한대로 동작하기 어렵습니다.
- 입력 프롬프트에 따라 사람의 의도에 맞는 문장을 생성하는 방법을 학습합니다.
RLHF (Reinforcement Learning from Human Feedback)
- SFT (Supervised Fine-Tuning) 모델에 강화 학습을 적용하여 파인 튜닝을 합니다.
- 행동의 정답이 정해진 supervised learning과는 달리, 모델이 얼마나 적절한지를 알려줍니다.
- RLHF는 사람의 피드백을 이용하여 모델이 강화 학습하는 방법입니다.
리워드 모델 학습
- 리워드 모델을 학습하기 위해 리워드 모델 학습 데이터 셋을 구축합니다.
- 대화 문맥 셋에 대해 SFT 모델이 답변 후보들을 생성합니다.
- 리워드 모델 학습 데이터 셋을 기반으로 리워드 모델을 학습합니다.
Bradley-Terry 모델
- 두 후보의 우위에 대한 확률을 계산하는 확률 모델로 사용됩니다.
- (C, yc, yr)에 대해 yc 답변이 yr 답변보다 더 좋을 확률을 계산합니다.
- 리워드 모델이 주어진 문맥 C에 대한 답변의 적합도 점수를 계산한 logit score를 사용합니다.
리워드 모델 학습
- 리워드 모델은 positive 답변 yc가 negative 답변 yr보다 좋을 확률을 높이는 방향으로 학습합니다.
SFT (Supervised Fine-Tuning) 모델 피드백 학습
- 리워드 점수를 최대화하는 방향으로 SFT 모델을 fine-tuning 합니다.