add download functionality to prototype datasets (#5035)

pmeier · web-flow · commit 4d00ae0f3a6d · 2021-12-08T08:49:27.000+01:00
* add download functionality to prototype datasets

* fix annotation

* fix test

* remove iopath

* add comments
diff --git a/test/builtin_dataset_mocks.py b/test/builtin_dataset_mocks.py
@@ -29,6 +29,19 @@
 DEFAULT_TEST_DECODER = object()
 
 
+class TestResource(datasets.utils.OnlineResource):
+    def __init__(self, *, dataset_name, dataset_config, **kwargs):
+        super().__init__(**kwargs)
+        self.dataset_name = dataset_name
+        self.dataset_config = dataset_config
+
+    def _download(self, _):
+        raise pytest.UsageError(
+            f"Dataset '{self.dataset_name}' requires the file '{self.file_name}' for {self.dataset_config}, "
+            f"but this file does not exist."
+        )
+
+
 class DatasetMocks:
     def __init__(self):
         self._mock_data_fns = {}
@@ -72,7 +85,7 @@ def _parse_mock_info(self, mock_info, *, name):
             )
         return mock_info
 
-    def _get(self, dataset, config):
+    def _get(self, dataset, config, root):
         name = dataset.info.name
         resources_and_mock_info = self._cache.get((name, config))
         if resources_and_mock_info:
@@ -87,20 +100,12 @@ def _get(self, dataset, config):
                 f"Did you register the mock data function with `@DatasetMocks.register_mock_data_fn`?"
             )
 
-        root = self._tmp_home / name
-        root.mkdir(exist_ok=True)
+        mock_resources = [
+            TestResource(dataset_name=name, dataset_config=config, file_name=resource.file_name)
+            for resource in dataset.resources(config)
+        ]
         mock_info = self._parse_mock_info(fakedata_fn(dataset.info, root, config), name=name)
 
-        mock_resources = []
-        for resource in dataset.resources(config):
-            path = root / resource.file_name
-            if not path.exists() and path.is_file():
-                raise pytest.UsageError(
-                    f"Dataset '{name}' requires the file {path.name} for {config}, but this file does not exist."
-                )
-
-            mock_resources.append(datasets.utils.LocalResource(path))
-
         self._cache[(name, config)] = mock_resources, mock_info
         return mock_resources, mock_info
 
@@ -109,9 +114,13 @@ def load(
     ) -> Tuple[IterDataPipe, Dict[str, Any]]:
         dataset = find(name)
         config = dataset.info.make_config(split=split, **options)
-        resources, mock_info = self._get(dataset, config)
+
+        root = self._tmp_home / name
+        root.mkdir(exist_ok=True)
+        resources, mock_info = self._get(dataset, config, root)
+
         datapipe = dataset._make_datapipe(
-            [resource.to_datapipe() for resource in resources],
+            [resource.load(root) for resource in resources],
             config=config,
             decoder=DEFAULT_DECODER_MAP.get(dataset.info.type) if decoder is DEFAULT_DECODER else decoder,
         )
diff --git a/test/test_prototype_datasets_api.py b/test/test_prototype_datasets_api.py
@@ -211,10 +211,10 @@ def test_default_config(self):
             pytest.param(make_minimal_dataset_info().default_config, None, id="default"),
         ],
     )
-    def test_to_datapipe_config(self, config, kwarg):
+    def test_load_config(self, config, kwarg):
         dataset = self.DatasetMock()
 
-        dataset.to_datapipe("", config=kwarg)
+        dataset.load("", config=kwarg)
 
         dataset.resources.assert_called_with(config)
 
@@ -225,18 +225,19 @@ def test_missing_dependencies(self):
         dependency = "fake_dependency"
         dataset = self.DatasetMock(make_minimal_dataset_info(dependencies=(dependency,)))
         with pytest.raises(ModuleNotFoundError, match=dependency):
-            dataset.to_datapipe("root")
+            dataset.load("root")
 
     def test_resources(self, mocker):
-        resource_mock = mocker.Mock(spec=["to_datapipe"])
+        resource_mock = mocker.Mock(spec=["load"])
         sentinel = object()
-        resource_mock.to_datapipe.return_value = sentinel
+        resource_mock.load.return_value = sentinel
         dataset = self.DatasetMock(resources=[resource_mock])
 
         root = "root"
-        dataset.to_datapipe(root)
+        dataset.load(root)
 
-        resource_mock.to_datapipe.assert_called_with(root)
+        (call_args, _) = resource_mock.load.call_args
+        assert call_args[0] == root
 
         (call_args, _) = dataset._make_datapipe.call_args
         assert call_args[0][0] is sentinel
@@ -245,7 +246,7 @@ def test_decoder(self):
         dataset = self.DatasetMock()
 
         sentinel = object()
-        dataset.to_datapipe("", decoder=sentinel)
+        dataset.load("", decoder=sentinel)
 
         (_, call_kwargs) = dataset._make_datapipe.call_args
         assert call_kwargs["decoder"] is sentinel
diff --git a/torchvision/prototype/datasets/_api.py b/torchvision/prototype/datasets/_api.py
@@ -61,16 +61,16 @@ def load(
     name: str,
     *,
     decoder: Optional[Callable[[io.IOBase], torch.Tensor]] = DEFAULT_DECODER,  # type: ignore[assignment]
+    skip_integrity_check: bool = False,
     split: str = "train",
     **options: Any,
 ) -> IterDataPipe[Dict[str, Any]]:
-    name = name.lower()
     dataset = find(name)
 
     if decoder is DEFAULT_DECODER:
         decoder = DEFAULT_DECODER_MAP.get(dataset.info.type)
 
     config = dataset.info.make_config(split=split, **options)
-    root = os.path.join(home(), name)
+    root = os.path.join(home(), dataset.name)
 
-    return dataset.to_datapipe(root, config=config, decoder=decoder)
+    return dataset.load(root, config=config, decoder=decoder, skip_integrity_check=skip_integrity_check)
diff --git a/torchvision/prototype/datasets/_builtin/caltech.py b/torchvision/prototype/datasets/_builtin/caltech.py
@@ -8,7 +8,6 @@
 from torchdata.datapipes.iter import (
     IterDataPipe,
     Mapper,
-    TarArchiveReader,
     Shuffler,
     Filter,
     IterKeyZipper,
@@ -38,6 +37,7 @@ def resources(self, config: DatasetConfig) -> List[OnlineResource]:
         images = HttpResource(
             "http://www.vision.caltech.edu/Image_Datasets/Caltech101/101_ObjectCategories.tar.gz",
             sha256="af6ece2f339791ca20f855943d8b55dd60892c0a25105fcd631ee3d6430f9926",
+            decompress=True,
         )
         anns = HttpResource(
             "http://www.vision.caltech.edu/Image_Datasets/Caltech101/Annotations.tar",
@@ -119,11 +119,9 @@ def _make_datapipe(
     ) -> IterDataPipe[Dict[str, Any]]:
         images_dp, anns_dp = resource_dps
 
-        images_dp = TarArchiveReader(images_dp)
         images_dp = Filter(images_dp, self._is_not_background_image)
         images_dp = Shuffler(images_dp, buffer_size=INFINITE_BUFFER_SIZE)
 
-        anns_dp = TarArchiveReader(anns_dp)
         anns_dp = Filter(anns_dp, self._is_ann)
 
         dp = IterKeyZipper(
@@ -137,8 +135,7 @@ def _make_datapipe(
         return Mapper(dp, self._collate_and_decode_sample, fn_kwargs=dict(decoder=decoder))
 
     def _generate_categories(self, root: pathlib.Path) -> List[str]:
-        dp = self.resources(self.default_config)[0].to_datapipe(pathlib.Path(root) / self.name)
-        dp = TarArchiveReader(dp)
+        dp = self.resources(self.default_config)[0].load(pathlib.Path(root) / self.name)
         dp = Filter(dp, self._is_not_background_image)
         return sorted({pathlib.Path(path).parent.name for path, _ in dp})
 
@@ -185,13 +182,11 @@ def _make_datapipe(
         decoder: Optional[Callable[[io.IOBase], torch.Tensor]],
     ) -> IterDataPipe[Dict[str, Any]]:
         dp = resource_dps[0]
-        dp = TarArchiveReader(dp)
         dp = Filter(dp, self._is_not_rogue_file)
         dp = Shuffler(dp, buffer_size=INFINITE_BUFFER_SIZE)
         return Mapper(dp, self._collate_and_decode_sample, fn_kwargs=dict(decoder=decoder))
 
     def _generate_categories(self, root: pathlib.Path) -> List[str]:
-        dp = self.resources(self.default_config)[0].to_datapipe(pathlib.Path(root) / self.name)
-        dp = TarArchiveReader(dp)
+        dp = self.resources(self.default_config)[0].load(pathlib.Path(root) / self.name)
         dir_names = {pathlib.Path(path).parent.name for path, _ in dp}
         return [name.split(".")[1] for name in sorted(dir_names)]
diff --git a/torchvision/prototype/datasets/_builtin/celeba.py b/torchvision/prototype/datasets/_builtin/celeba.py
@@ -8,7 +8,6 @@
     Mapper,
     Shuffler,
     Filter,
-    ZipArchiveReader,
     Zipper,
     IterKeyZipper,
 )
@@ -154,8 +153,6 @@ def _make_datapipe(
         splits_dp = Filter(splits_dp, self._filter_split, fn_kwargs=dict(split=config.split))
         splits_dp = Shuffler(splits_dp, buffer_size=INFINITE_BUFFER_SIZE)
 
-        images_dp = ZipArchiveReader(images_dp)
-
         anns_dp = Zipper(
             *[
                 CelebACSVParser(dp, fieldnames=fieldnames)
diff --git a/torchvision/prototype/datasets/_builtin/cifar.py b/torchvision/prototype/datasets/_builtin/cifar.py
@@ -11,7 +11,6 @@
     IterDataPipe,
     Filter,
     Mapper,
-    TarArchiveReader,
     Shuffler,
 )
 from torchvision.prototype.datasets.decoder import raw
@@ -85,16 +84,14 @@ def _make_datapipe(
         decoder: Optional[Callable[[io.IOBase], torch.Tensor]],
     ) -> IterDataPipe[Dict[str, Any]]:
         dp = resource_dps[0]
-        dp = TarArchiveReader(dp)
         dp = Filter(dp, functools.partial(self._is_data_file, config=config))
         dp = Mapper(dp, self._unpickle)
         dp = CifarFileReader(dp, labels_key=self._LABELS_KEY)
         dp = Shuffler(dp, buffer_size=INFINITE_BUFFER_SIZE)
         return Mapper(dp, self._collate_and_decode, fn_kwargs=dict(decoder=decoder))
 
     def _generate_categories(self, root: pathlib.Path) -> List[str]:
-        dp = self.resources(self.default_config)[0].to_datapipe(pathlib.Path(root) / self.name)
-        dp = TarArchiveReader(dp)
+        dp = self.resources(self.default_config)[0].load(pathlib.Path(root) / self.name)
         dp = Filter(dp, path_comparator("name", self._META_FILE_NAME))
         dp = Mapper(dp, self._unpickle)
         return cast(List[str], next(iter(dp))[self._CATEGORIES_KEY])
diff --git a/torchvision/prototype/datasets/_builtin/coco.py b/torchvision/prototype/datasets/_builtin/coco.py
@@ -11,7 +11,6 @@
     Shuffler,
     Filter,
     Demultiplexer,
-    ZipArchiveReader,
     Grouper,
     IterKeyZipper,
     JsonParser,
@@ -180,13 +179,10 @@ def _make_datapipe(
     ) -> IterDataPipe[Dict[str, Any]]:
         images_dp, meta_dp = resource_dps
 
-        images_dp = ZipArchiveReader(images_dp)
-
         if config.annotations is None:
             dp = Shuffler(images_dp)
             return Mapper(dp, self._collate_and_decode_image, fn_kwargs=dict(decoder=decoder))
 
-        meta_dp = ZipArchiveReader(meta_dp)
         meta_dp = Filter(
             meta_dp,
             self._filter_meta_files,
@@ -234,8 +230,7 @@ def _generate_categories(self, root: pathlib.Path) -> Tuple[Tuple[str, str]]:
         config = self.default_config
         resources = self.resources(config)
 
-        dp = resources[1].to_datapipe(pathlib.Path(root) / self.name)
-        dp = ZipArchiveReader(dp)
+        dp = resources[1].load(pathlib.Path(root) / self.name)
         dp = Filter(
             dp, self._filter_meta_files, fn_kwargs=dict(split=config.split, year=config.year, annotations="instances")
         )
diff --git a/torchvision/prototype/datasets/_builtin/imagenet.py b/torchvision/prototype/datasets/_builtin/imagenet.py
@@ -9,8 +9,8 @@
     Dataset,
     DatasetConfig,
     DatasetInfo,
-    HttpResource,
     OnlineResource,
+    ManualDownloadResource,
     DatasetType,
 )
 from torchvision.prototype.datasets.utils._internal import (
@@ -25,6 +25,11 @@
 from torchvision.prototype.utils._internal import FrozenMapping
 
 
+class ImageNetResource(ManualDownloadResource):
+    def __init__(self, **kwargs: Any) -> None:
+        super().__init__("Register on https://image-net.org/ and follow the instructions there.", **kwargs)
+
+
 class ImageNetLabel(Label):
     wnid: Optional[str]
 
@@ -81,10 +86,10 @@ def wnid_to_category(self) -> Dict[str, str]:
 
     def resources(self, config: DatasetConfig) -> List[OnlineResource]:
         name = "test_v10102019" if config.split == "test" else config.split
-        images = HttpResource(f"ILSVRC2012_img_{name}.tar", sha256=self._IMAGES_CHECKSUMS[name])
+        images = ImageNetResource(file_name=f"ILSVRC2012_img_{name}.tar", sha256=self._IMAGES_CHECKSUMS[name])
 
-        devkit = HttpResource(
-            "ILSVRC2012_devkit_t12.tar.gz",
+        devkit = ImageNetResource(
+            file_name="ILSVRC2012_devkit_t12.tar.gz",
             sha256="b59243268c0d266621fd587d2018f69e906fb22875aca0e295b48cafaa927953",
         )
 
@@ -139,15 +144,12 @@ def _make_datapipe(
     ) -> IterDataPipe[Dict[str, Any]]:
         images_dp, devkit_dp = resource_dps
 
-        images_dp = TarArchiveReader(images_dp)
-
         if config.split == "train":
             # the train archive is a tar of tars
             dp = TarArchiveReader(images_dp)
             dp = Shuffler(dp, buffer_size=INFINITE_BUFFER_SIZE)
             dp = Mapper(dp, self._collate_train_data)
         elif config.split == "val":
-            devkit_dp = TarArchiveReader(devkit_dp)
             devkit_dp = Filter(devkit_dp, path_comparator("name", "ILSVRC2012_validation_ground_truth.txt"))
             devkit_dp = LineReader(devkit_dp, return_path=False)
             devkit_dp = Mapper(devkit_dp, int)
@@ -177,8 +179,7 @@ def _make_datapipe(
 
     def _generate_categories(self, root: pathlib.Path) -> List[Tuple[str, ...]]:
         resources = self.resources(self.default_config)
-        devkit_dp = resources[1].to_datapipe(root / self.name)
-        devkit_dp = TarArchiveReader(devkit_dp)
+        devkit_dp = resources[1].load(root / self.name)
         devkit_dp = Filter(devkit_dp, path_comparator("name", "meta.mat"))
 
         meta = next(iter(devkit_dp))[1]
diff --git a/torchvision/prototype/datasets/_builtin/mnist.py b/torchvision/prototype/datasets/_builtin/mnist.py
@@ -11,7 +11,6 @@
     IterDataPipe,
     Demultiplexer,
     Mapper,
-    ZipArchiveReader,
     Zipper,
     Shuffler,
 )
@@ -310,7 +309,6 @@ def _make_datapipe(
         decoder: Optional[Callable[[io.IOBase], torch.Tensor]],
     ) -> IterDataPipe[Dict[str, Any]]:
         archive_dp = resource_dps[0]
-        archive_dp = ZipArchiveReader(archive_dp)
         images_dp, labels_dp = Demultiplexer(
             archive_dp,
             2,
diff --git a/torchvision/prototype/datasets/_builtin/sbd.py b/torchvision/prototype/datasets/_builtin/sbd.py
@@ -8,7 +8,6 @@
 from torchdata.datapipes.iter import (
     IterDataPipe,
     Mapper,
-    TarArchiveReader,
     Shuffler,
     Demultiplexer,
     Filter,
@@ -129,7 +128,6 @@ def _make_datapipe(
         archive_dp, extra_split_dp = resource_dps
 
         archive_dp = resource_dps[0]
-        archive_dp = TarArchiveReader(archive_dp)
         split_dp, images_dp, anns_dp = Demultiplexer(
             archive_dp,
             3,
@@ -155,8 +153,7 @@ def _make_datapipe(
         return Mapper(dp, self._collate_and_decode_sample, fn_kwargs=dict(config=config, decoder=decoder))
 
     def _generate_categories(self, root: pathlib.Path) -> Tuple[str, ...]:
-        dp = self.resources(self.default_config)[0].to_datapipe(pathlib.Path(root) / self.name)
-        dp = TarArchiveReader(dp)
+        dp = self.resources(self.default_config)[0].load(pathlib.Path(root) / self.name)
         dp = Filter(dp, path_comparator("name", "category_names.m"))
         dp = LineReader(dp)
         dp = Mapper(dp, bytes.decode, input_col=1)
diff --git a/torchvision/prototype/datasets/_builtin/semeion.py b/torchvision/prototype/datasets/_builtin/semeion.py
@@ -30,11 +30,11 @@ def _make_info(self) -> DatasetInfo:
         )
 
     def resources(self, config: DatasetConfig) -> List[OnlineResource]:
-        archive = HttpResource(
+        data = HttpResource(
             "http://archive.ics.uci.edu/ml/machine-learning-databases/semeion/semeion.data",
             sha256="f43228ae3da5ea6a3c95069d53450b86166770e3b719dcc333182128fe08d4b1",
         )
-        return [archive]
+        return [data]
 
     def _collate_and_decode_sample(
         self,
diff --git a/torchvision/prototype/datasets/_builtin/voc.py b/torchvision/prototype/datasets/_builtin/voc.py
@@ -8,7 +8,6 @@
 from torchdata.datapipes.iter import (
     IterDataPipe,
     Mapper,
-    TarArchiveReader,
     Shuffler,
     Filter,
     Demultiplexer,
@@ -119,7 +118,6 @@ def _make_datapipe(
         decoder: Optional[Callable[[io.IOBase], torch.Tensor]],
     ) -> IterDataPipe[Dict[str, Any]]:
         archive_dp = resource_dps[0]
-        archive_dp = TarArchiveReader(archive_dp)
         split_dp, images_dp, anns_dp = Demultiplexer(
             archive_dp,
             3,
diff --git a/torchvision/prototype/datasets/generate_category_files.py b/torchvision/prototype/datasets/generate_category_files.py
diff --git a/torchvision/prototype/datasets/utils/__init__.py b/torchvision/prototype/datasets/utils/__init__.py
diff --git a/torchvision/prototype/datasets/utils/_dataset.py b/torchvision/prototype/datasets/utils/_dataset.py
diff --git a/torchvision/prototype/datasets/utils/_resource.py b/torchvision/prototype/datasets/utils/_resource.py