В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов
Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.
Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в
Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в
Schema.org [3]
ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]
Ссылки:
[1]
https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/[2]
http://webdatacommons.org/[3]
http://webdatacommons.org/structureddata/sotab/[4]
https://aclanthology.org/[5]
https://aclanthology.org/L18-1550/#opendata #datasets #digitalhumanities