articles channels tags spaces toolkit

SCATTER LAB Tech BlogAugust 30, 2023

더 나은 생성모델을 위해 RLHF로 피드백 학습시키기

RLHF (Reinforcement Learning from Human Feedback)를 사용한 생성모델 피드백 학습

Unsupervised Learning (Pre-training)

사전 학습을 통해 대형 생성 모델 (PLM) 을 만듭니다.
대형 생성 모델은 강력하지만 의도한대로 동작하기 어렵습니다.
입력 프롬프트에 따라 사람의 의도에 맞는 문장을 생성하는 방법을 학습합니다.

RLHF (Reinforcement Learning from Human Feedback)

SFT (Supervised Fine-Tuning) 모델에 강화 학습을 적용하여 파인 튜닝을 합니다.
행동의 정답이 정해진 supervised learning과는 달리, 모델이 얼마나 적절한지를 알려줍니다.
RLHF는 사람의 피드백을 이용하여 모델이 강화 학습하는 방법입니다.

리워드 모델 학습

리워드 모델을 학습하기 위해 리워드 모델 학습 데이터 셋을 구축합니다.
대화 문맥 셋에 대해 SFT 모델이 답변 후보들을 생성합니다.
리워드 모델 학습 데이터 셋을 기반으로 리워드 모델을 학습합니다.

Bradley-Terry 모델

두 후보의 우위에 대한 확률을 계산하는 확률 모델로 사용됩니다.
(C, yc, yr)에 대해 yc 답변이 yr 답변보다 더 좋을 확률을 계산합니다.
리워드 모델이 주어진 문맥 C에 대한 답변의 적합도 점수를 계산한 logit score를 사용합니다.

리워드 모델 학습

리워드 모델은 positive 답변 yc가 negative 답변 yr보다 좋을 확률을 높이는 방향으로 학습합니다.

SFT (Supervised Fine-Tuning) 모델 피드백 학습

리워드 점수를 최대화하는 방향으로 SFT 모델을 fine-tuning 합니다.