Multilingual Corpora - Groups

OpenSubtitles2018

This dataset is used to evaluate the performance of context-aware machine translation systems. It consists of English-Russian subtitles with varying levels of context.

Dataset
JSON

Wikipedia Comparable Corpora

Multilingual dataset for topic modeling based on aligned Wikipedia articles extracted from Wikipedia Comparable Corpora

Dataset
JSON

OSCAR

The OSCAR corpus is a multilingual web corpus that is used for pre-training large generative language models. It is a document-oriented corpus that is comparable in size and...

Dataset
JSON

3 datasets found

OpenSubtitles2018

Wikipedia Comparable Corpora

OSCAR