Как я и обещал, напишу о том что же за такой проект "Архивация государства" которым я занимаюсь уже более 5 лет и который один из наименее публичных проектов Инфокультуры да и я сам пишу о нем значительно реже чем про открытые данные, госзакупки и многое другое.

Еще очень давно я столкнулся с тем что при реорганизации ведомств в России и даже просто при смене их руководителей, старые сайты очень быстро исчезают, а на новых остается далеко не вся информация.

Пример - МВД России в 2012 году обновили свой сайт и "снесли" все региональные сайты заменив их на новые в формате "25.мвд.рф" даже не перенеся туда большей части архивных материалов.

Другой пример - сайты ликвидированных ведомств. Федеральный сайт ФМС [1] закрыт в день ликвидации, территориальные сайты ликвидировались в течении нескольких дней.

Таких примеров очень много, единственный пример того как грамотно была организована доступность архивных сайтов - это Федеральная служба по финансовым рынкам, а далее ЦБ РФ хранили все сайты всех ведомств которые были до них с 2003 года [2].

Но в России нет такого явления как цифровые государственные архивы, аналогичный Библиотеке Конгресса в США или Национальные архивы в Великобритании [3].

Причем эти архивы, в первую очередь, создаются как архивы веб-сайтов, поскольку именно архивы веб-сайтов содержат большую часть публичной государственной информации.
В мире много таких проектов и неполный их список есть в Википедии [4]

Для того чтобы такой проект вести нужно немало ресурсов которые уходят на несколько направлений:
- собрать ссылки и расставить приоритеты о том какие сайты надо архивировать - это работа с сообществом, чаще всего
- собрать данные с сайтов и заархивировать их в специальный формат WARC разработанный для хранения архивов
- обеспечить их долгосрочное хранение и доступность
- дать возможность просматривать архивные страницы как это делает Интернет архив (archive.org)

Все это требует особой инфраструктуры. Специально развернутой оболочки которая называется Heritrix и с настройками его под те цифровые коллекции которые создаются. Именно Heritrix используется в большинстве интернет-архивов, это большое тяжелое ПО на Java которое еще и надо адаптировать под славянские языки.

Альтернативой ему является подход команды ArchiveTeam [5] когда группа энтузиастов не делает интерфейсов на собранных данных, вместо этого они собирают данные с сайтов с помощью специального настроенного краулера wget адаптированного для скриптов на языке Lua и таким образом они создают WARC файлы из архивных сайтов, но потом только складируют их для общего доступа, но не делают над ними веб-интерфейс.

Для исследователей этот формат вполне удобен, для рядовых пользователей куда меньше, разбираться с техническими файлами архивов не так просто.

Для проекта который веду я никогда не было внешнего финансирования, он был сделан по модели ArchiveTeam, но без такого же числа волонтеров и с приоритетом на сайты государства.

Со временем эти приоритеты немного расширились и коллекции которые я собирал и собираю попали исчезающие общественные явления, такие как сайты банков (особенно ликвидируемых), крупнейшие ресурсы забаненые Роскомнадзором, разного рода антинаучные сайты и значимые общественные проекты.

На сегодня архив состоит из:
- 1.4 терабайта веб архивов включая:
- 345 сайтов банков
- 39 сайтов международного мемориала
- 9 сайтов крупных международных конференций в России
- 5 сайтов выборов
- 10 сайтов политиков и политических партий в периоды выборных кампаний
- 20 сайтов Олимпиады в Сочи
- 20 сайтов Открытого правительства, РВК, ФРИИ, АСИ и других институтов развития и государственных структур реформ
- 55 сайтов РИА Новостей до приходу туда новой команды Д. Киселева
- все сайты региональных арбитражных судов до слияния с Верховным Судом

- около 500 сайтов органов власти
- множество отдельных наборов данных, порталов открытых данных и коллекций собранных другими
- это около 15 терабайт в разжатом виде и несколько краулеров которые регулярно что-то качают.