Paper List
M-REWARDBENCH: Evaluating Reward Models in Multilingual Settings
- RewardBench 데이터셋을 번역하여 기존 모델들을 다시 테스트함.
- 언어에 따라 모델 성능 차이가 존재함.
- 모든 모델이 영어 벤치마크에서의 성능에 비해, 다국어 벤치마크에서는 낮은 성과를 보임.
M-REWARDBENCH: Evaluating Reward Models in Multilingual Settings