Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп

DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.

911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.

Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии

LibGen Torrents [5] более миллиона научных книг через торренты

Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив

Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты

Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com

#opendata #datasets