Я регулярно рассказываю о том какие самые большие датасеты доступны онлайн, в основном это данные экспериментов с частицами из ITER и данные расшифровки геномов.

Как измерить их? Сколь много данных за этим скрывается? Я приведу в пример геномные данные в рамках проекта 1000 Genomes. Они опубликованы очень банально, на FTP сервере [1]. В среднем, в сжатом виде опубликованный там геном занимает 36 ГБ. Плюс много разных версий, и много данных разных проектов. В итоге общий объём это 876 терабайт. Или, в других цифрах, 0.87 петабайта.

Много это или мало? Вообще-то много. И это только те данные которые общедоступны, которые можно скачать и рассматривать как открытые научные данные.

Ссылки:
[1] http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

#opendata #bigdata #datasets #genomics