Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения

- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения

Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.

Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.

Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.

#opendata #datasets #machinelearning