Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов

Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.

Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]

ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]

Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] http://webdatacommons.org/
[3] http://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/

#opendata #datasets #digitalhumanities