reward model

reward model이 결국 “두 답변 중 어느 쪽이 더 좋은가”를 구분하려는 것이라면, 굳이 reward model을 따로 만들지 말고 그 비교 목표를 language model loss 안에 직접 넣으면...

...calling, 한국어만 쓰기, 금칙어 회피처럼 reward를 비교적 안정적으로 만들 수 있는 부분은 RL로 따로 분리해볼 수 있다. F.4) Reward를 쓴다면 이렇게 쪼갠다 하나의 reward model에게 “자연스러운가?”를 한 번에 판단하게 하면 불안정하다. 차라리 reward를 여러 축으로 나누는 편이 낫다.

Zzong's Notes

탐색기

reward model

Paper List

링크된 언급

탐색기

reward model

Paper List

링크된 언급

함께 보면 좋은 글