Dataset - LDM

Gpt4all-J

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
Instruct-PTBR

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
Pt-Corpus-Instruct

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON
Pt-Corpus

The dataset used for training the TeenyTinyLlama pair consists of a concatenation of open-source Brazilian Portuguese datasets, including Wikipedia, CulturaX, OSCAR, Common...
- Dataset
- JSON

You can also access this registry using the API (see API Docs).

4 datasets found