Национальный цифровой архив
2.37K subscribers
41 photos
4 files
111 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Я ранее регулярно рассказывал как работать с веб-архивами и про инструменты которые мы создаём для работы с ними. За пару отпускных дней удалось вернуться к давним планам по улучшению инструментов по работе с ними и пора рассказать о развитии инструмента metawarc [1].

Metawarc - это утилита командной строки созданная изначально для задач цифрового дознания, сбора данных из архивов веб- сайтов. Я лично активно её применял в задачах исследований/расследований, вроде "Государство как пират" [2] о том как косвенные следы пиратского ПО находятся в документах на сайтах госорганов.

Эта утилита работает с WARC файлами, слепками веб-сайтов которые умеют создавать такие инструменты как wget, wpull, Heritrix и другие краулеры веб-сайтов из так называемой экосистемы WARC.

Изначальные функции инструмента были в том чтобы заглянуть в содержание WARC файла, перебрать каждую запись, найти попадающие под типы офисных документов и из каждого офисного документа (.doc, .docx, .xls и других) извлечь кто его создал, какая компания, когда и тд. Задача которая относится скорее к цифровому дознанию чем к цифровой архивации. Цифровое дознание (digital forensic) - это, в принципе, одно из применений веб-архивов и цифровых архивов в принципе.

Но кроме цифрового дознания есть много других областей в которых нужна обработка WARC файлов. Например, извлечение данных определенного типа, вроде файлов Excel или извлечение содержания веб-страниц для последующего полнотекстового индексирования или анализ полноты загруженных файлов и упрощение их обработки.

Поэтому утилиту я, наконец-то, обновил изменив команду index, теперь она не генерирует JSON файл с метаданными, а создает базу SQLite куда эти метаданные кладет. Это не метаданные внутри офисных файлов, но метаданные HTTP запросов и параметров записей в WARC. Их использование сильно ускоряет другие задачи, например, это новые команды поддерживаемые metawrc - dump, stats, list, export

Команда stats выводит статистику по числу записей в WARC файле в разрезе расширений файлов или типов контента (mime)

Команда list позволяет листать записи в WARC файле передавая в качестве параметров список расширений, список типов контента или запрос к SQLite базе данных (кусок SQL запроса после WHERE).

Команда dump работает как list, но для сохранения выбранный файлов в отдельную папку. Поскольку не все файлы в WARC можно сохранять с полным путем, то файлы сохраняются каждый с уникальным идентификатором и к ним прилагается список файлов с соответствием каждого файла ссылке в WARC файле.

Команда export позволяет выгружать содержимое WARC файла в машиночитаемом виде. Она даёт возможности экспортировать заголовки из WARC файла в формате JSON lines и содержимое HTML страниц для полнотекстового индексирования, например, с помощью Opensearch, Elastic или Meilisearch.

Инструмент будет полезен всем кто изучает веб сайты, работает с архивами в формате WARC и создает их. Желающие могут воспользоваться, к примеру, архивами сайтов Мемориала [3] или архивами сайтов Роснано [4] которые мы сохраняли в @ruarxive в 2021 году.

Ошибки, идеи и предложения пишите в Issues на github [5]

Ссылки:
[1] https://github.com/datacoon/metawarc
[2] https://begtin.tech/government-piracy/
[3] https://cdn.ruarxive.org/public/webcollect2021/memorial2021/
[4] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
[5] https://github.com/datacoon/metawarc/issues

#opensource #webarchives #digitalpreservation #opendata
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.

Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями

Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].

Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.

Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md

#opendata #datasets #web
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых данных библиографические данные научных публикаций в коллекции Bulk Bibliographic Metadata [1]. В этой коллекции собраны полные дампы данных интегрированных в сервис Fatcat [2] из более чем 130 миллионов научных статей в открытом доступе.

Коллекция включает такие наборы данных как։
- полный дамп базы Postgres сервиса Fatcat (более 200 GB)
- дамп базы OpenLex
- дамп метаданных Datacite
- дамп метаданных Crossref
- дамп метаданных DOAJ
- дампы базы DBLP

А также многих других. В общей сложности это 13 терабайт в сжатом виде.

На их основе и построен упоминавшийся ранее проект scholar.archive.org

Ссылки։
[1] https://archive.org/details/ia_biblio_metadata?sort=-publicdate
[2] https://fatcat.wiki/
[3] https://scholar.archive.org

#opendata #datasets #openaccess
Forwarded from Ivan Begtin (Ivan Begtin)
В дополнении к новости про архив отчетов Счетной палаты [1], копия отчетов загружена в Интернет архив [2], это будет удобнее тем кто хочет скачать их одним файлом. Там же набор данных с метаданными и ссылками на документы отчетов. Структура директорий в файле с отчетами воспроизводит структуру сайта Счетной палаты, поэтому можно по каждой ссылки из набора данных найти нужный сохранённый файл.
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде

Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].

Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.

Может быть можно ещё для чего-то.

Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.

Ссылки։
[1] https://publielectoral.lat/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks

#opendata #datasets #government
Forwarded from Ivan Begtin (Ivan Begtin)
Почему нужно архивировать данные․ Каспийский трубопроводный консорциум ранее публиковал статистику по отгрузке нефтепродуктов на своём сайте. Теперь этот раздел недоступен [1], последняя публикация в интернет-архиве есть за март 2022 года. Похоже данные исчезли в март-апреле причём включая все исторические данные.

Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.

Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.

Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.

Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.

Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/

#opendata #data #russia
Forwarded from Ivan Begtin (Ivan Begtin)
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.

Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.

Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7

Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)

#opendata #opendataday
Интересное мероприятие Software Source Code as documentary heritage организованное ЮНЕСКО совместно с французским некоммерческим проектом Software Heritage о сохранении исходного кода.
Там много интересных докладов, например, об организации хранения петабайтов в человеческом ДНК и о том сжатии огромных объёмов открытого кода.
Но важнее то что открытый код рассматривается как часть культурного/цифрового наследия человечества.

https://webcast.unesco.org/events/2023-02-07-software-heritage/

#opensource #opendata #software
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2023!

4 марта 2023 года состоится ежегодный День открытых данных — онлайн!

Приглашаем разработчиков, ИТ-специалистов, дата-журналистов, гражданских активистов и других участников российского движения открытости. Некоторые темы выступлений:

— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.

— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.

— Мастер-класс «Визуализация открытых геоданных Москвы для медиа и соцсетей».

— Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике».

Слушайте доклады, принимайте участие в мастер-классах и становитесь частью движения, создавая и продвигая открытые данные в своей деятельности!

Программа мероприятия и регистрация уже доступны по ссылке: https://opendataday.ru/msk

#ODD2023 #OpenDataDay #OpenData
Forwarded from Инфокультура
Уже завтра состоится онлайн-мероприятие — День открытых данных 2023.

Мероприятие стартует в 11:00. Расписание выступлений доступно здесь: https://opendataday.ru/msk#program

В программе:
— Мастер-классы о том, как обрабатывать и визуализировать гео-пространственные данные.
— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.
— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.
— Использование открытых данных в общественном контроле в сфере ЖКХ.
— Цифровые архивы: как собираются цифровые коллекции открытых и общедоступных данных институтов памяти.

Трансляция мероприятия:
- https://opendataday.ru/msk#stream
- https://www.youtube.com/@Infoculture/streams

Слушайте доклады, задавайте вопросы спикерам и принимайте участие в мастер-классах и становитесь частью движения, продвигая открытые данные в своей деятельности!

#OpenDataDay #OpenData #ODD2023
#BetterTogetherThanAlone
It is Web Archive Wednesday My Dudes

В Twitter среди веб-архивистов популярен тег #WebArchiveWednesday — что значит, как можно догадаться, день публикации контента, связанного с цифровыми архивами.

Сделали подборку новостей и находок по теме.

● The New York Times блокирует веб-краулер от Open AI, чтобы запретить сбор контента для использования в обучении алгоритмов искусственного интеллекта. Теперь официально в условиях использования контента появился запрет на использование «robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape».

● Веб-архивы — это беспорядок. Статья, опубликованная в открытом доступе, о том, как организовать хранение наборов данных и кода в notebooks, произведенных в процессе веб-архивирования.

● Awesome Web Archiving list. Ссылка на гитхаб репозиторий с набором полезных ссылок на ресурсы, инструменты, гайды и людей.

● Librarypunk: Web Archiving and Social Media. Если вы понимаете речь на английском или знаете, как организовать перевод, то рекомендуем послушать выпуск подкаста о веб-архивировании и социальных сетях. Или заглянуть в описание, где вы найдете полезные ссылки на материалы.

Enjoy! 🤓

#WebArchiveWednesday #opendata #digitalculture
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
Forwarded from Ivan Begtin (Ivan Begtin)
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc