Dataset - LDM

Gpt4all-J

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
Instruct-PTBR

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
Pt-Corpus-Instruct

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
Pt-Corpus

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
PB-Br.v1

The PB-Br.v1 corpus is a corpus of Brazilian Portuguese texts annotated with semantic roles.
- Dataset
- JSON
PB-Br.v2

The PB-Br.v2 corpus is a corpus of Brazilian Portuguese texts annotated with semantic roles.
- Dataset
- JSON
PropBank.Br

The PropBank.Br corpus is a corpus of Brazilian Portuguese texts annotated with semantic roles.
- Dataset
- JSON
COCO dataset (Brazilian Portuguese)

The dataset used for training the Brazilian Portuguese version of the GRIT model, a translation of the COCO dataset.
- Dataset
- JSON

You can also access this registry using the API (see API Docs).

8 datasets found