Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок. GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты