ml-papers/papers/2023/230724 RLCD.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/abs/2307.12950

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment (Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian)