sacrebleu/DATASETS.md at master · mjpost/sacrebleu

Dataset	Description
mtedx/valid	mTEDx evaluation data, valid: URL
mtedx/test	mTEDx evaluation data, test: URL
wmt23	Official evaluation and system data for WMT23.
wmt22	Official evaluation and system data for WMT22.
wmt21/systems	WMT21 system output.
wmt21/dev	Development data for WMT21，if multiple references are available, the first one is used.
wmt21/D	Official evaluation data for WMT21 with reference D
wmt21/C	Official evaluation data for WMT21 with reference C
wmt21/B	Official evaluation data for WMT21 with reference B.
wmt21/AC	Official evaluation data for WMT21 with references A and C
wmt21/AB	Official evaluation data for WMT21 with references A and B.
wmt21	Official evaluation data for WMT21.
wmt20/robust/set1	WMT20 robustness task, set 1
wmt20/robust/set2	WMT20 robustness task, set 2
wmt20/robust/set3	WMT20 robustness task, set 3
wmt20/tworefs	WMT20 news test sets with two references
wmt20	Official evaluation data for WMT20
mtnt2019	Test set for the WMT 19 robustness shared task
mtnt1.1/test	Test data for the Machine Translation of Noisy Text task: URL
mtnt1.1/valid	Validation data for the Machine Translation of Noisy Text task: URL
mtnt1.1/train	Training data for the Machine Translation of Noisy Text task: URL
wmt20/dev	Development data for tasks new to 2020.
wmt19	Official evaluation data.
wmt19/dev	Development data for tasks new to 2019.
wmt19/google/ar	Additional high-quality reference for WMT19/en-de.
wmt19/google/arp	Additional paraphrase of wmt19/google/ar.
wmt19/google/wmtp	Additional paraphrase of the official WMT19 reference.
wmt19/google/hqr	Best human selected-reference between wmt19 and wmt19/google/ar.
wmt19/google/hqp	Best human-selected reference between wmt19/google/arp and wmt19/google/wmtp.
wmt19/google/hqall	Best human-selected reference among original official reference and the Google reference and paraphrases.
wmt18	Official evaluation data.
wmt18/test-ts	Official evaluation sources with extra test sets interleaved.
wmt18/dev	Development data (Estonian<>English).
wmt17	Official evaluation data.
wmt17/B	Additional reference for EN-FI and FI-EN.
wmt17/tworefs	Systems with two references.
wmt17/improved	Improved zh-en and en-zh translations.
wmt17/dev	Development sets released for new languages in 2017.
wmt17/ms	Additional Chinese-English references from Microsoft Research.
wmt16	Official evaluation data.
wmt16/B	Additional reference for EN-FI.
wmt16/tworefs	EN-FI with two references.
wmt16/dev	Development sets released for new languages in 2016.
wmt15	Official evaluation data.
wmt14	Official evaluation data.
wmt14/full	Evaluation data released after official evaluation for further research.
wmt13	Official evaluation data.
wmt12	Official evaluation data.
wmt11	Official evaluation data.
wmt10	Official evaluation data.
wmt09	Official evaluation data.
wmt08	Official evaluation data.
wmt08/nc	Official evaluation data (news commentary).
wmt08/europarl	Official evaluation data (Europarl).
iwslt17	Official evaluation data for IWSLT.
iwslt17/tst2016	Development data for IWSLT 2017.
iwslt17/tst2015	Development data for IWSLT 2017.
iwslt17/tst2014	Development data for IWSLT 2017.
iwslt17/tst2013	Development data for IWSLT 2017.
iwslt17/tst2012	Development data for IWSLT 2017.
iwslt17/tst2011	Development data for IWSLT 2017.
iwslt17/tst2010	Development data for IWSLT 2017.
iwslt17/dev2010	Development data for IWSLT 2017.
multi30k/2016	2016 flickr test set of Multi30k dataset
multi30k/2017	2017 flickr test set of Multi30k dataset
multi30k/2018	2018 flickr test set of Multi30k dataset. See URL for evaluation.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

DATASETS.md

Latest commit

History

DATASETS.md

File metadata and controls