Dataset - LDM

Grammarly Argument Quality Corpus (GAQCorpus)

A large, domain-diverse annotated corpus of theory-based argument quality assessment.
- Dataset
- JSON
Presto: A Multilingual Dataset for Task-Oriented Dialogue Parsing

A multilingual dataset for task-oriented dialogue parsing.
- Dataset
- JSON
Diabla: A Corpus of Bilingual Spontaneous Written Dialogues

A corpus of bilingual spontaneous written dialogues for machine translation.
- Dataset
- JSON
DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction

A large-scale human-annotated corpus for disfluency correction in four Indo-European languages: English, Hindi, German, and French.
- Dataset
- JSON
Semantic Scholar Open Research Corpus

The Semantic Scholar Open Research Corpus contains meta-data of 46,947,044 published research papers in Computer Science, Neuroscience, and Bio-medicine from 1936 to 2019.
- Dataset
- JSON
ROC-Stories: A Corpus for Evaluating Story Generation Models

ROC-Stories: A Corpus for Evaluating Story Generation Models
- Dataset
- JSON
EPOCHS

The dataset EPOCHS is a corpus of 20 versions of translations produced by a neural machine translation (NMT) system.
- Dataset
- JSON
PB-Br.v1

The PB-Br.v1 corpus is a corpus of Brazilian Portuguese texts annotated with semantic roles.
- Dataset
- JSON
PB-Br.v2

The PB-Br.v2 corpus is a corpus of Brazilian Portuguese texts annotated with semantic roles.
- Dataset
- JSON
PropBank.Br

The PropBank.Br corpus is a corpus of Brazilian Portuguese texts annotated with semantic roles.
- Dataset
- JSON
French Wikipedia

French Wikipedia corpus
- Dataset
- JSON
Asian Scientific Paper Excerpt Corpus (ASPEC)

Asian Scientific Paper Excerpt Corpus (ASPEC)
- Dataset
- JSON
Swiss SMS corpus

Swiss SMS corpus dataset
- Dataset
- JSON
TED

The dataset is used for document-level neural machine translation. It contains 0.23M training sentences, 0.31M development sentences, and 0.21M test sentences.
- Dataset
- JSON
Penn Discourse Treebank 2.0

The Penn Discourse Treebank 2.0 (PDTB 2.0) is a large scale corpus containing 2,312 Wall Street Journal (WSJ) articles.
- Dataset
- JSON
MS MARCO V1 corpus

MS MARCO V1 corpus
- Dataset
- JSON
Speech Corpus

A speech corpus of size 7,000 used for training and validation of the FCI module.
- Dataset
- JSON
OSCAR corpus

The dataset used in this study is the OSCAR corpus, which is a multilingual corpus that is obtained by filtering of the Common Crawl corpus.
- Dataset
- JSON
Gutenberg Corpus

A dataset of 2,857 books written by 141 authors, used for pre-training and fine-tuning a language model for author-stylized text generation.
- Dataset
- JSON
TIMIT

The TIMIT corpus is a widely used benchmark for speech recognition tasks. It contains 3,696 training utterances from 462 speakers, excluding the SA sentences. The core test set...
- Dataset
- JSON

You can also access this registry using the API (see API Docs).

44 datasets found