Я регулярно рассказываю о том какие самые большие датасеты доступны онлайн, в основном это данные экспериментов с частицами из ITER и данные расшифровки геномов.
Как измерить их? Сколь много данных за этим скрывается? Я приведу в пример геномные данные в рамках проекта 1000 Genomes. Они опубликованы очень банально, на FTP сервере [1]. В среднем, в сжатом виде опубликованный там геном занимает 36 ГБ. Плюс много разных версий, и много данных разных проектов. В итоге общий объём это
876 терабайт. Или, в других цифрах,
0.87 петабайта.
Много это или мало? Вообще-то много. И это только те данные которые общедоступны, которые можно скачать и рассматривать как открытые научные данные.
Ссылки:
[1]
http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/#opendata #bigdata #datasets #genomics