В 1 февраля 2023 года должен начаться большой глобальный проект Open Global Data Citation Corpus [1]. Это большой корпус по данным научного цитирования включающий публикации с DOI и без DOI и реализуемый в партнерстве Wellcome Trust, Chan Zuckerberg Initiative и DataCite. А также я так понимаю что туда вовлечены участники из проектов EMBL-EBI, COKI, OpenAIRE, and OpenCitations․ Это может быть весьма большим и интересным набором данных поскольку до сих пор никто такую глобальную базу не собирал. Лично мне правда интересно почему не взяли за основу OpenCitations [2], а может как раз и взяли и просто ещё не рассказали нам об этом до анонса. Главным недостатком OpenCitations как раз и было то что их база охватывала только документы с DOI, которых много, но они не все.

Ссылки։
[1] https://blog.datacite.org/data-citation-corpus-announcement-2023/
[2] https://opencitations.net/

#opendata #datasets #openaccess #openscience