Подборка ссылок и моих наблюдений про то как публикуют данные в мире:
1.
Китайский национальный центр по биоинформатике собирает базы общим размером более 51 петабайта [1] большая часть которых доступна для скачивания онлайн через их FTP сервер, посмотреть можно через веб интерфейс их FTP сервера [2]
2.
THREDDS Data Server [3] софт с открытым кодом для публикации научных данных. Изначально создан для работы с метеорологическими данными и, в основном, так и применяется. Несколько десятков инсталляций по всему миру, хотя сам продукт очень консервативный и заточенный под конкретную область. Можно посмотреть пример такого каталога [4]
3.
Github - это крупнейший каталог данных, но плохо структурированный. Опубликовать данные там просто, найти данные там сложно потому что будучи репозиторием кода датасеты там не структурированы в отдельную категорию. Можно искать их через правильные поисковые запросы, например, находя спецификации Frictionless Data которые в файлах datapackage.json [5]
4.
Datamed [6] поисковик по биомедицинским датасетам, пишут что их там миллионы, по факту 1.2 миллиона из 49 репозиториев. Из них 80% датасетов из всего 4-х репозиториев имеющих более продвинутые формы поиска. Идея хорошая, реализация, на мой взгляд, не очень, недостаточно нового качества создаётся. Ну и индексируют они похоже отдельными парсерами под каждый источник и у них всё та же запутанность о том что считать датасетами.
5. Уже несколько раз сталкиваюсь с тем что, казалось бы, у
типового ПО для публикации данных нет API. Нечасто но такое бывает и выясняется что это не нет API, а подход возврата разного содержания от передачи заголовка
Accept: application/json в HTTP запросе. То есть, де-факто, API есть, но GET запрос не вернет JSON или другой машиночитаемый ответ. Любопытно насколько это распространено в публикации чего-то ещё, есть подозрение что это не такое редкое явление и не только про каталоги данных.
Ссылки:
[1]
https://www.cncb.ac.cn/[2]
https://download.cncb.ac.cn/[3]
https://github.com/Unidata/tds[4]
https://thredds.rda.ucar.edu/thredds/catalog/catalog.html[5]
https://github.com/search?q=path%3A**%2Fdatapackage.json&type=code&ref=advsearch[6]
https://datamed.org/#opendata #data #datasets #datatools #datacatalogs #datasearch