Skip to content

Datasets block refactor#95

Merged
LukyanovKirillML merged 24 commits intodevelopfrom
datasets_block_refactor
Nov 10, 2025
Merged

Datasets block refactor#95
LukyanovKirillML merged 24 commits intodevelopfrom
datasets_block_refactor

Conversation

@mishadr
Copy link
Collaborator

@mishadr mishadr commented Nov 1, 2025

Основные изменения по модулю датасетов

  • обновление конфигов
    • добавление в dataset_config параметры графа, ему нужна подпапка
    • внутри DatasetVarConfig фичи задает FeatureConfig
  • обобщение PrefixStorage -> TuplePrefixStorage
  • организация папок с датасетами на бэке
    • разделение на папки data/ (сырые данные) и datasets/ (тензоры)
    • в data/ вложенность папок не ограничена
      • обновить способ построения индекса по датасетам - теперь рекурсивно ищет файл metainfo
    • .info -> metainfo и лежит наряду с папкой raw
    • сохранение датасетов в datasets/ по аналогии с моделями - хэш + файл с описанием
  • задание датасета на фронте
    • выбор папки в виде popup menu
    • предпросмотр основных статистик датасета при наведении мыши на название
  • обновить классы датасетов
    • иерархия и функции в соответствии с документацией
    • инит в GeneralDataset на основе DatasetConfig, в который добавили параметры создания графа.
      • делает инит птг графа тк надо отрисовать граф на фронте
    • build - построение Dataset на основе dataset_var_config
    • обновить статистики
  • посмотреть что с датасетами в хагингфейс
  • добавить примеры для всех типов датасетов
    • готовый датасет из торча
    • птг датасет, созданный в коде
    • файлы в формате ij,xml, graphml и тп
    • пользовательский датасет, наследованный от птг Dataset
      • power graph
      • simgnn (почти, проблема на фронте, что датасет не птг-шный а торчовый)
    • полностью кастомный датасет
      • vk sample
      • arxiv sample
  • тесты на создание датасета всеми способами
  • выписать документацию для разработчика по датасетам
    • подробно для осн классов - инфо, гендатасет, его насл, менеджер, конфиги
    • перевести и оформить в сфинкс
  • monkey_patch_directories() в utils для создания временных папок на время тестирования
  • доступны любые птг датасеты из https://pytorch-geometric.readthedocs.io/en/latest/cheatsheet/data_cheatsheet.html, но их надо сначала создать на бэке чтобы появились на фронте. По умолчанию на фронте будут доступно создание из списка torch_geom_index.json
  • местоположение всех example и ptg графов поменялись

@mishadr mishadr force-pushed the datasets_block_refactor branch 9 times, most recently from de7fc98 to cbfc13a Compare November 7, 2025 21:23
@mishadr mishadr force-pushed the datasets_block_refactor branch 24 times, most recently from 05c3b05 to 26b362e Compare November 8, 2025 23:13
@mishadr mishadr force-pushed the datasets_block_refactor branch from 26b362e to 6f98a48 Compare November 8, 2025 23:14
@LukyanovKirillML LukyanovKirillML merged commit 3051675 into develop Nov 10, 2025
3 checks passed
@LukyanovKirillML LukyanovKirillML deleted the datasets_block_refactor branch November 10, 2025 10:47
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants