Off-policy Learning - Groups

OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distrib...

The OPIRL dataset is used for training and testing the Off-Policy Inverse Reinforcement Learning (OPIRL) algorithm.

Dataset
JSON

Soft Actor-Critic

A soft actor-critic algorithm for off-policy maximum entropy deep reinforcement learning.

Dataset
JSON

NeoRL

A near real-world benchmark for ofﬂine RL, which contains datasets from various domains with controlled sizes, and extra test datasets for policy validation.

Dataset
JSON

3 datasets found

OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distrib...

Soft Actor-Critic

NeoRL