Language Models - Groups - LDM

HH-RLHF

The HH-RLHF dataset is a human preference dataset for reinforcement learning from human feedback.
- Dataset
- JSON
SHP dataset

The SHP dataset is used to evaluate the performance of the proposed Compositional Preference Models (CPMs).
- Dataset
- JSON
HH-RLHF dataset

The HH-RLHF dataset is used to evaluate the performance of the proposed Compositional Preference Models (CPMs).
- Dataset
- JSON

Before browse our site, please accept our cookies policy