Code Generation - Groups - LDM

Evaluating large language models trained on code

The paper presents the results of the OpenAI Codex evaluation on generating Python code.
- Dataset
- JSON
Execution-based Evaluation for NL2Bash

A set of 50 prompts to evaluate execution-based evaluation for NL2Bash task
- Dataset
- JSON

Before browse our site, please accept our cookies policy