Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Компания Uber открыла проект Movement [1] в котором по запросу готова предоставлять данные о более чем 2 миллиардах поездках машин на Uber по всему миру. Подробнее о том как устроен их проект в ролике на Youtube [2] и, на русском языке, в заметке на Roem [3].

Резонный вопрос который может задать любой читатель этой новости в том зачем коммерческая компания будет предоставлять данные которые являются, в том числе, топливом на котором она строит свою бизнес модель. Ответ в том что для создания репутации и "торга" с властями городов по всему миру. Власти пытающиеся ограничить Uber получают в обратную сторону данные которых они так желают. Журналисты получают возможность ссылаться на Uber в своих data-расследованиях.

И да, конечно, Uber не единственный краудсорсинговый проект придерживающийся подобной политики. В основном его, конечно, реализуют общественные проекты такие как Wikipedia, OpenStreetMap, Dmoz и десятки других созданные некоммерческими организациями и общественными движениями. Но, также, подобная практика есть и у коммерческих компаний. Некоторые из них дают собственные данные, например, Google раздающий данные из своего Transparency report [4] или Citymapper призывающий власти публиковать больше открытых данных [5], [6].

Что можно сказать точно, так это то что крупные международные игроки куда больше вкладывают усилий в популяризацию работы, как со своими данными, так и в публикацию открытых данных властями, по сравнению с практически всем российским интернет-бизнесом. Не называя имен конкретных компаний, можно говорить о том что они лоббируют эксклюзивный доступ к госданным и не предоставляют их, ни пользователям, ни по запросу. В результате, рано или поздно окажется что единственный способ получить данные из некоторых российских компаний будет очень негуманным, лоббированием регулирования раскрытия ими информации через российских законодателей. Но этот способ борьбы с вампирами с помощью людоедов красивым никому не покажется.


Ссылки:
[1] https://movement.uber.com/cities
[2] https://www.youtube.com/watch?time_continue=5&v=bszvEIMVsIc
[3] https://roem.ru/09-01-2017/239968/uber-movment/
[4] https://www.google.com/transparencyreport/
[5] https://theodi.org/news/citymapper-government-open-data-improve-cities
[6] https://medium.com/citymapper/building-a-city-without-open-data-124356672deb

#opendata #opengov #citydata #uber #ubermovement
Специально для тех кто не знает как Uber Movement выглядит изнутри вот картинка
Британское статистическое бюро ONS (Office of National Statistics) разместило в своем блоге обзор их практики публикации открытых данных [1].

Это один из лучших подходов к этой теме у статистических ведомств, а сам сайт бюро [2] - это наглядный пример того как должен выглядеть сайт дата-ориентированного ведомства. Если сравнить с российским Росстатом [3] то разница в подходах почувствуется еще более остро.

Ключевое в доступности данных для анализа. Для всех баз и индикаторов публикуются, и Excel файлы, и машиночитаемые данные в CSV и других форматах (например, в формате SDMX).

Возможно именно по этой причине у Twitter'аккаунта ONS более 245 тысяч подписчиков [4], а у Росстата 354 читателя [5] и 2.5 тысячи подписчиков во Вконтакте [6].

Ссылки:
[1] https://blog.ons.digital/2017/01/06/some-open-data-publishing-principles/
[2] https://www.ons.gov.uk/
[3] http://www.gks.ru/
[4] https://twitter.com/ONS
[5] https://twitter.com/rosstatistika
[6] https://vk.com/rosstatistika

#opendata #opengov #statistics
TCData360 [1] - это новый проект Всемирного банка с 1800 индикаторами [2] из разных баз данных по внешней торговле, торговому балансу стран, инновациям, рейтингам и так далее.

По каждой стране есть ее профиль, например, вот страны постсоветского пространства:
- Россия - http://tcdata360.worldbank.org/countries/RUS
- Украина - http://tcdata360.worldbank.org/countries/UKR
- Казахстан - http://tcdata360.worldbank.org/countries/KAZ
- Беларусь - http://tcdata360.worldbank.org/countries/BLR

Данные из TCData360 доступны через API проекта [3], а визуализация данных в экспериментальном режиме есть по ссылке Visually Explore TCdata360 [4].

Этот портал не первый, и похоже, не последний портал данных Мирового банка. Напомню про другие их проекты с данными:
- Open Data Catalog - http://datacatalog.worldbank.org/
- DataBank - http://databank.worldbank.org/data/home.aspx
- Microdata Library - http://microdata.worldbank.org/
- World Development Indicators - http://wdi.worldbank.org/
- Open Finances - https://finances.worldbank.org/
- Projects and operations - http://www.worldbank.org/projects
- Open Data Toolkit - http://opendatatoolkit.worldbank.org/en/
- AidFlows - http://www.aidflows.org/
- Global Consumption Database - http://datatopics.worldbank.org/consumption/

Из всех международных структур Всемирный банк лидирует по раскрытию его баз данных. Возможно лишь ООН, как совокупность структур, вскоре приблизится к его масштабам раскрытия информации.

Ссылки:
[1] http://tcdata360.worldbank.org/
[2] http://tcdata360.worldbank.org/topics
[3] http://tcdata360.worldbank.org/tools
[4] https://alberto-sanchez-rodelgo.shinyapps.io/datascoper/

#opendata #opengov #data #worldbank
Появилась в открытом доступе запись моей лекции "От больших данных к большому брату" [1] в рамках лектория Новой Газеты.

Я рассказывал о том что большие данные давно используют для слежки за гражданами, но не стоит думать что государства лидируют в этой области. Корпорации куда больше мотивированы извлекать из нас знания (и деньги). Впрочем подробнее именно в этой лекции.

Ссылки:
[1] https://www.youtube.com/watch?v=lgqy_V8RCCM

#privacy #bigdata #paranoid #happyparanoid
John Tornhill из Financial Times написал заметку о том как дата-капиталисты наживаются на нашей приватности [1], однако немногие смогут прочитать ее за paywall'ом, поэтому стоит почитать ее пересказ [2] на сайте The GovLab.

Смысл статьи в том что данные настолько меняюи общество, сдвигают приоритеты в управлении что можно говорить о Dataism'е как его описывал израильский писатель Yuval Noah Harari [3], [4], [5] в книге Homo Deus которая окажется в продаже с 21 февраля 2017 года.

В том что данные все более управляют обществом уже давно нет новизны, но все еще и нет осознания рядовыми гражданами. Это довольно спорное утверждение что "скоро все все-равно будет прозрачным". У меня есть ровно противоположные предсказания, вплоть до появления сект людей противников сбора какой-либо информации о их жизни. Обязательно будут появляться места, дома, комнаты, изолированные от любого сбора информации. Точно также буду возникать и изолированные сети не подключенные ни к одной общей сети. Не как Tor, а вообще существующие изолированно физически.

Но это, конечно, будут капли в море общества которое начнет призывать к цифровому коммунизму. А борьба с data-капитализмом начнет приобретать не только экзотические национальные формы как в России, но и станет частью политической повестки множества стран.

Ссылки:
[1] https://www.ft.com/content/c0a6b882-d65d-11e6-944b-e7eb37a6aa8e
[2] http://thegovlab.org/data-capitalism-is-cashing-in-on-our-privacy%E2%80%89-%E2%80%89-%E2%80%89-%E2%80%89for-now/
[3] http://www.wired.co.uk/article/yuval-noah-harari-dataism
[4] https://www.ft.com/content/50bb4830-6a4c-11e6-ae5b-a7cc5dd5a28c
[5] http://www.dw.com/en/harari-on-homo-deus-immortality-dataism-and-health-the-infinite-market/a-19523293

#opendata #privacy #dataism #data
В РБК вышла статья Александра Гордеева "Цифровая диктатура: как в Китае вводят систему социального рейтинга" [1] о том как в Китайской народной республике законопослушность внедряется в жизнь цифровыми инструментами.

Подробннее о целях внедрения на английском языке [2], а также перечень санкций для тех у кого низкий рейтинг [3].

Социальный рейтинг - это специальный рейтинг каждого человека состоящий из множества факторов связанных с его кредитной историей, законопослушностью и соблюдением общественных правил (читай - "морали").
Его практическое воплощение хорошо показано в сериале Black Mirror в 1-й серии 3-го сезона [4].

Социальные рейтинги основаны на поощрении тех кто соблюдает все правила и введении ограничений для тех кто правила нарушает.

Для людей с низкими рейтингами санкции включают:
— запрет на работу в госучреждениях;
— отказ в соцобеспечении;
— особо тщательный досмотр на таможне;
— запрет на занятие руководящих должностей в пищевой и фармацевтической промышленности;
— отказ в авиабилетах и спальном месте в ночных поездах;
— отказ в местах в люксовых гостиницах и ресторанах;
— запрет на обучение детей в дорогих частных школах.

Хорошо ли это или плохо? Выиграем ли мы все если подобное будет внедрено? Это другой мир, которого нам, скорее всего, очень скоро не избежать.

Сейчас социальный рейтинг - это пилотный проект внедряемый в провинции Ханчжоу в Китае, но вскоре эта практика может распространиться и на другие регионы Китая и на другие страны.

При этом важно помнить об ограничениях и новых проблемах которые подобные рейтинги создадут:
- двойное наказание. Для многих нарушений и без того предусмотрены наказания в виде штрафов или же ограничений в деятельности. Это относится к судимости, например.
- конфликты. Часть оценок в социальный рейтинг может идти от оценки служащих с которыми контактирует человек и может привести к дальнейшим социальным конфликтам (это как раз тема серии Black Mirror).
- маргинализация. Маловероятно что рейтинг получится скрыть и использовать только для ранее заявленных целей. Можно быть на 100% уверенными что он распространится и на работу в госсекторе вообще и на прием на работу. Вакансии с пометкой минимального балла социального рейтинга необходимого для работы неизбежны.
- виктимизация. В ситуации невозможности скрыть информацию о рейтингах от других граждан вполне вероятны акты агрессии против лиц с наиболее низким рейтингом. Социальные разделения на "мы и они" приобретут гораздо более драматическую форму.

Я могу порекомендовать прочитать статью "On social credit and the right to be unnetworked" [5] с обзором большого числа проблем возникающим именно при массовом внедрегии социальных рейтингов.

Дополнительно стоит ознакомиться с анализом практики возврата налогов экспортными предприятиями в Китае (Deloitte) [6] - о том как схожие рейтинги и классификация предприятий на 4 категории со своими возможностями и ограничениями вводится в Китае с сентября 2016 года.

Не стоит рассчитывать на то что рейтинги будут вводиться только для граждан. Можно с высокой степенью уверенности утверждать что если они начнут вводиться, то затронут и коммерческие предприятия также. Уже сейчас многие компании в России экспериментируют с "рейтингами добросовестности", но пока нет ничего что было бы оформлено в государственную политику.

[1] http://www.rbc.ru/business/11/12/2016/584953bb9a79477c8a7c08a7
[2] https://chinacopyrightandmedia.wordpress.com/2014/06/14/planning-outline-for-the-construction-of-a-social-credit-system-2014-2020/
[3] https://www.instapaper.com/text?u=https%3A%2F%2Fchinacopyrightandmedia.wordpress.com%2F2016%2F09%2F25%2Fopinions-concerning-accelerating-the-construction-of-credit-supervision-warning-and-punishment-mechanisms-for-persons-subject-to-enforcement-for-trust-breaking%2F
[4] https://en.wikipedia.org/wiki/Nosedive
[5] http://cblr.columbia.edu/wp-content/uploads/2016/07/2_2016.2_Geslevich-Packin-and-Lev-Aretz_FINAL.pdf
[6] https://www2.deloitte.com/content/dam/Deloitte/cn/Documents/tax/ta-2016/deloitte-cn-tax-tap2522016-en-161122.pdf

#data #privacy
Я не хочу подробно писать о "дискуссии" между Лебедевым и Навальным вокруг бездеятельности второго и "крупного господрядчика" в лице Студии Лебедева. Я напишу только этот текст и не буду вступать в дискуссии в комментариях, здесь или где-либо еще. Мое мнение очень давно сложилось.

Все это смешно, и больше похоже на то что Навальный с Лебедевым договорились так раскачать блогосферу чтобы устроить Навальному дебаты на Дожде с наименее подготовленным, но медийным собеседником. Насчет "крупного господрячика Лебедева" - это даже не смешно. Все кто хоть чуточку в курсе того как устроены госрасходы знают насколько это глупое утверждение.

В прошлом году я был на большом форуме в Татарстане в рамках мероприятия международного союза городов (не помню его точного названия). Так вот главный акцент на котором делали все участники, в первую очередь, участники из демократических стран - Евросоюза, Австралии и других в том что города - это не форма управления. Городская власть ближе к людям вне зависимости от политического устройства страны.

Так же и здесь. Любимый Навальным ФАС России публикует в своем отчете о конкуренции цифру в 70% ВВП России формируемом госсектором. Эти цифры включают чистые госрасходы и расходы включающие госкорпорации и остальные government enterprises все вместе.

Очень немногие предприниматели в России могут не пересекаться с государством и заниматься профессиональной деятельностью. Это пересечение почти всегда не связано с политическим устройством, контракты заключаются с региональными, муниципальными властями или с отдельными госорганизациями.

Навальный в своей риторике обвиняет не только Лебедева, но и весь тот бизнес который живет в этих 70% ВВП от госсектора.

Я могу назвать это только 'дерьмовым популизмом', который в отличии от популизма классического, основан только на закидывании дерьмом оппонентов.

Это одна из причин почему я еще много лет назад говорил что ФБК Навального с самого начала жертвует профессионализмом в угоду фанатичной политике. А сам Навальный теряет поддержку любого думающего человека.

Выбор между "упырями" и "дерьмовыми популистами" как раз и наводит апатию на тех кто должен этот выбор делать.

Даже этот текст я пишу в формате "не сдержался". В нескольких СМИ в ближайшие недели и месяцы будут выходить материалы с моими комментариями и с интервью где я подробнее рассказываю о реальных проблемах в госзаказе которые куда серьезнее были и остаются чем вся риторика Навального.

#procurement
Два автора подряд в США пишут о рисках открытости данных в США с приходом Дональда Трампа. В первой "How Trump’s White House Could Mess With Government Data" [1], где автор во многих примерах и обещаниях Дональда Трампа улавливает риски потери данных. Уже сейчас есть риск потери доступа к климатическим данным и вероятность закрытия агентства EPA. Эту же тему продолжает главред InfoWorld в статье "Will open data survive Trump?" [2] которая в эпоху Трампа "Band of Big Brothers: Meet Trump’s spy team" [3] особенно актуальна.

Что и говорить - проблема не надуманная. Администрация Трампа вполне может пересмотреть приоритеты и перестать заигрывать с "излишней открытостью".

Ссылки:
[1] https://fivethirtyeight.com/features/how-trumps-white-house-could-mess-with-government-data/
[2] http://www.infoworld.com/article/3157870/open-source-tools/fears-of-trump-prompt-open-datas-underground-railroad.html
[3] http://www.infoworld.com/article/3150741/government/band-of-big-brothers-meet-trumps-spy-team.html

#opendata #usopendata #trump
Мало кто в России из тех кто пишет о госзакупках, на самом деле, пытается вникнуть в то как реально устроена вся эта система изнутри. Например, часто, слишком часто обходят стороной роль электронных торговых площадок и того факта что они являются некой экзотической (теневой) формой ГЧП. В свежей статье Ведомостей "Как зарабатывают площадки для госзаказа" [1] представлены наши цифры по анализу структуры рынка.

В данном случае я выступаю в роли не столько общественной сколько в роли экспертной. Этот анализ мы проводим в рамках работы аналитического агентства "Бюро контрактной информации" которое я возглавляю и которое специализируется как раз на глубоком изучении рынков, как госзаказа, так и контрактных отношений/закупок в корпорациях.

И это, кстати, наглядная демонстрация работы на основе открытых данных - для подсчета ключевых цифр необходимо зачастую перелопатить огромные объемы баз данных, файлов и множество источников информации.

В этом году планируется еще много публикаций на эту тему, и не только в формате сжатых статей в Ведомостях, но и в виде более комплексных документов.

Ссылки:
[1] http://www.vedomosti.ru/economics/articles/2017/01/19/673603-zarabativayut-ploschadki-goszakaza

#procurement #goszakaz
Новость которая прошла практически незамеченной, 15 декабря 2016 года вышли рекомендации W3C "Data on the Web Best Practices" [1] с большим числом примеров того как надо публиковать данные онлайн, в web'е.

Рекомендации охватывают широкий спектр тем, таких как:
- метаданные;
- лицензии для данных;
- происхождение данных;
- качество данных;
- версионность данных;
- идентификаторы данных;
- форматы данных;
- словари для данных;
- доступ к данным включая доступ к данным через API
- обратная связь
- улучшение данных
- и повторная публикация.

Что особенно важно так то что в документе сформулированы основные выгоды которые получает пользователь и публикатор данных:
- Reuse
- Comprehension
- Linkability
- Discoverability
- Trust
- Access
- Interoperability
- Processability

Все примеры связаны с данными выгодами и хорошо систематизированы. Было бы неплохо, конечно, прогнать через эти критерии российские методические рекомендации, почти наверняка мы можем ожидать что они не соответствуют где-то половине данных критериев.

Разумеется это не первый и не последний подобный документ от W3C, но для публикации данных до сих пор их рекомендации в России очень плохо используются.

Ссылки:
[1] https://www.w3.org/TR/2016/PR-dwbp-20161215/

#opendata #opengov #data #w3c
По итогам рассмотрения экспертной группой Михаила Абызова петиции по отмене "закона Яровой" уже вышло немало публикаций [1]

К сожалению, к великому сожалению, после последнего рассмотрения петиции по "закону Яровой" Российскую общественную инициативу можно закрывать.

И дело даже не в плохом законе, а он реально плохо написан, и дело даже не в том как устроено РОИ. Мы можем предполагать что это самый верный и честный сервис (даже без внешнего аудита и прозрачности его финансирования).

Проблема в том что он никому не нужен. И его не спасти открытостью данных, сервисов и даже открытости кода, в ситуации когда он не выполняет той роли для которой создавался - диалог руководства страны и граждан. Всю тему коммуникаций власти с остальными субъектами общества требуется очень глубоко перезагружать. Инструменты народной экспертизы, петиций и остальные механизмы Открытого правительства, будем честными, выродились в не самые функциональные инструменты. И, во многом, это связано с тем что их инициаторы сами не знают что с ними делать, даже если действительно изначально их желали.

Закон Яровой даже не столько плох, сколько глуп. Для квалифицированных граждан возможность сохранять собственную приватность была и остается. Массовый контроль государства за неквалифицированными обывателями был, увы, неизбежен и на него обречены все развитые страны. Ему нужно сопротивляться, но в первую очередь знаниями. А вот попытки хранить все объемы данных передаваемых по сетям - это несусветная глупость.

Равно как и полная неподотчетность обществу тех кто будет иметь к этим данным доступ.

Ссылки:
[1] http://www.vedomosti.ru/technology/articles/2017/01/19/673701-zakonu-yarovoi

#privacy #opengovernment
Проект "End of Term Presidential Harvest 2016" [1] подходит к завершению. Это 5 месячная инициатива библиотеки конгресса, нескольких университетов и библиотек по архивации всех сайтов уходящей администрации Барака Обамы.

В виду большого объема данных проект использует Nomination Tool когда кто угодно может предложить организаторам ссылки для архивации для приориетного сохранения. Более 11 тысяч ссылок было предложено 294 участниками.

А 17 января группа энтузиастов собралась на хакатон по сбору данных по экологии [2] опубликовав 18 наборов данных на портале DataRefuge [3] созданного специально для сохранения архивных госданных.

Все это, не в последнюю очередь, связано непосредственно с избранием Дональда Трампа в президенты США и тем что в его команде много климатических скептиков, выступающих против борьбы с глобальным потеплением. Судьба агентства EPA в США под вопросом, как и их данные.

Не стоит полагать что это проблема имеет отношение только к США. В России ситуация с уничтожением официальных сайтов ничуть не лучше. Много лет назад я начал архивировать госсайты, находящиеся в зоне риска + перечень сайтов которые могли бы исчезнуть, но представляют ценность.

Архивация государства [4] это и есть тот самый давний проект в рамках которого уже собрано несколько терабайт данных в сжатом виде и десятков-сотен в распакованном. Но, за деятельностью над открытыми данными и коммерческими проектами на него остается не так много времени.

Как то я уже это писал. На такой проект сложно привлечь средства. А волонтеров оказывается очень немного. В одной из следующих публикаций я напишу про размеры накопленного архива и его потенциальном будущем.

Ссылки:
[1] http://digital2.library.unt.edu/nomination/eth2016/about/
[2] https://www.wired.com/2017/01/rogue-scientists-race-save-climate-data-trump/
[3] https://www.datarefuge.org/
[4] https://opengovdata.ru/projects/govarchive/


#opendata #opengov #preservation #data
Актуальная новость дня Trump removes “Open Government” from White House website [1], Администрация свежеизбранного Президента США убрала сразу же все упоминания об открытости государства и открытых данных [2].

Сохранится на повестке новой администрации неизвестно. США были и остаются участником и инициатором многих международных инициатив в открытости, начиная с OGP, продолжая обязательствами в рамках Большой Восмерки.

Это важный вопрос поскольку все время существования в мире инициатив по открытым данным США были одним из основных их спонсоров и, наряду с Великобританией, лидером в раскрытии данных.

Ссылки:
[1] https://g0v.news/trump-removes-open-government-from-white-house-website-5f7c4feb7c18
[2] https://search.whitehouse.gov/search?query=open+data&op=Search&affiliate=wh

#opendata #opengov #trump
В. В. Путин подписал поручение правительству определить единственного поставщика для разработки Единой Информационной Системы (ЕИС) в госзаказе [1]. Хорошая ли это новость или плохая?

Годовые расходы на эксплуатацию ЕИСа значительно выше тех 350 миллионов рублей о которых шла речь в потенциальном ежегодном доходе оператора и разработчика ЕИСа.

Если решение о выборе единственного исполнителя приведет к созданию единой электронной торговой площадки, то доходы оператопа вырастут до 3 миллиардов рублей в год. Главный вопрос в том останутся ли данные по государственным и муниципальным закупкам/контрактам доступными после передачи системы Ростеху.

Ссылки:
[1] http://www.vedomosti.ru/economics/articles/2017/01/23/674407-rosteh-zakaz-sistemu-zakupok

#procurement #goszakaz #opendata
4 февраля пройдет хакатон по теме культуры [1] организуемый АНО "Инфокультура", Министерством культуры РФ,
НИУ «Высшая школа экономики» Магистерская программа «Журналистика данных» и компанией SocialDataHub

Приходите, будет много интересных открытых данных и большая тусовка тех кто ими интересуется.
Кстати, для хакатона, мы всегда предлагаем использовать наши данных из проекта Госзатраты где есть данные по всем госконтрактам [2]

Ссылки:
[1] https://www.facebook.com/events/393132777694057/?acontext=%7B%22ref%22%3A%22108%22%2C%22action_history%22%3A%22null%22%7D
[2] https://clearspending.ru

#opendata #opengov #culture
Это будет один из немногих постов без ссылок.

Поиск и анализ открытых данных может давать, иногда, удивительные находки. Например, анализ открытого списка жертвователей одного крупного благотворительного фонда помощи детям выявил одного из федеральных министров который каждый месяц за последние 2 года жертвовал туда значительные суммы. В общей сложности это было, примерно, по 4.5 миллионоа рублей за 2015 и за 2016 годы - всего 9 миллионов рублей.

Называть, ни фонд, ни министра мне бы не хотелось. Но не могу не отметить насколько многие люди не на своем месте. Не берусь гадать жертвует ли он всю свою зарплату или только часть. Если зарплату, то можно таким образом судить о его официальных доходах. Может быть даже посмотреть на публичную декларацию.

Считать чужие деньги всегда неблагодарное дело, хотя и в данном случае скорее позволяет найти хорошее чем плохое. Сколько еще подобного много узнать из косвенных источников данных? Очень много

#opendata #charity
Как я и обещал, напишу о том что же за такой проект "Архивация государства" которым я занимаюсь уже более 5 лет и который один из наименее публичных проектов Инфокультуры да и я сам пишу о нем значительно реже чем про открытые данные, госзакупки и многое другое.

Еще очень давно я столкнулся с тем что при реорганизации ведомств в России и даже просто при смене их руководителей, старые сайты очень быстро исчезают, а на новых остается далеко не вся информация.

Пример - МВД России в 2012 году обновили свой сайт и "снесли" все региональные сайты заменив их на новые в формате "25.мвд.рф" даже не перенеся туда большей части архивных материалов.

Другой пример - сайты ликвидированных ведомств. Федеральный сайт ФМС [1] закрыт в день ликвидации, территориальные сайты ликвидировались в течении нескольких дней.

Таких примеров очень много, единственный пример того как грамотно была организована доступность архивных сайтов - это Федеральная служба по финансовым рынкам, а далее ЦБ РФ хранили все сайты всех ведомств которые были до них с 2003 года [2].

Но в России нет такого явления как цифровые государственные архивы, аналогичный Библиотеке Конгресса в США или Национальные архивы в Великобритании [3].

Причем эти архивы, в первую очередь, создаются как архивы веб-сайтов, поскольку именно архивы веб-сайтов содержат большую часть публичной государственной информации.
В мире много таких проектов и неполный их список есть в Википедии [4]

Для того чтобы такой проект вести нужно немало ресурсов которые уходят на несколько направлений:
- собрать ссылки и расставить приоритеты о том какие сайты надо архивировать - это работа с сообществом, чаще всего
- собрать данные с сайтов и заархивировать их в специальный формат WARC разработанный для хранения архивов
- обеспечить их долгосрочное хранение и доступность
- дать возможность просматривать архивные страницы как это делает Интернет архив (archive.org)

Все это требует особой инфраструктуры. Специально развернутой оболочки которая называется Heritrix и с настройками его под те цифровые коллекции которые создаются. Именно Heritrix используется в большинстве интернет-архивов, это большое тяжелое ПО на Java которое еще и надо адаптировать под славянские языки.

Альтернативой ему является подход команды ArchiveTeam [5] когда группа энтузиастов не делает интерфейсов на собранных данных, вместо этого они собирают данные с сайтов с помощью специального настроенного краулера wget адаптированного для скриптов на языке Lua и таким образом они создают WARC файлы из архивных сайтов, но потом только складируют их для общего доступа, но не делают над ними веб-интерфейс.

Для исследователей этот формат вполне удобен, для рядовых пользователей куда меньше, разбираться с техническими файлами архивов не так просто.

Для проекта который веду я никогда не было внешнего финансирования, он был сделан по модели ArchiveTeam, но без такого же числа волонтеров и с приоритетом на сайты государства.

Со временем эти приоритеты немного расширились и коллекции которые я собирал и собираю попали исчезающие общественные явления, такие как сайты банков (особенно ликвидируемых), крупнейшие ресурсы забаненые Роскомнадзором, разного рода антинаучные сайты и значимые общественные проекты.

На сегодня архив состоит из:
- 1.4 терабайта веб архивов включая:
- 345 сайтов банков
- 39 сайтов международного мемориала
- 9 сайтов крупных международных конференций в России
- 5 сайтов выборов
- 10 сайтов политиков и политических партий в периоды выборных кампаний
- 20 сайтов Олимпиады в Сочи
- 20 сайтов Открытого правительства, РВК, ФРИИ, АСИ и других институтов развития и государственных структур реформ
- 55 сайтов РИА Новостей до приходу туда новой команды Д. Киселева
- все сайты региональных арбитражных судов до слияния с Верховным Судом

- около 500 сайтов органов власти
- множество отдельных наборов данных, порталов открытых данных и коллекций собранных другими
- это около 15 терабайт в разжатом виде и несколько краулеров которые регулярно что-то качают.
У всего проекта мало описания. С архивами ситуация хуже - каждый раз архивируя обычно суетишься так чтобы успеть сохранить что-то до того как сайт снесли. Например, между отзывом лицензии у банка и ликвидации его сайта может быть всего пара часов, а может и их не быть. Поэтому для многих архивов нет метаданных с описаниями.

Но все что есть собрано на Github'е https://github.com/infoculture/preserved-russia/wiki, на старом сайте про открытые данные https://opengovdata.ru/projects/govarchive/ и в Google Drive https://drive.google.com/drive/u/0/folders/0B5haFpvgzsyhYW1lOHBiT1hrRG8 с информацией по текущему скачанному и описанному (скачано куда больше, нет рук описывать).

Особенность и отличие от Интернет архива в том что я собираю все материалы, а не только веб страницы. Выкачиваются все документы, видео, аудио и технические файлы. Все что только есть на сайте.

В текущей форме этот проект может существовать вечно. Пока я буду находить на него 1-2 часа времени в неделю. Может ли он стать чем-то большим? Возможно, но только если когда-либо удасться собрать команду тех кто будет считать что архивация рунета - это действительно важная задача. Может быть это один из тех проектов которые надо отделить в отдельный фонд и заниматься фандрайзингом средств, а может быть найти на него средств в текущей активности Инфокультуры.

Главная потребность в ресурсах следующая:
- хостинг: это 1-2 сервера для краулинга и условно неограниченное хранилище + трафик. Сейчас он выходит в 100-200 евро в месяц, в зависимости от того как много качают. Все хранится на Hetzner'е что дает относительно дешевый хостинг и не самую большую надежность;
- проектирование того как должна быть устроена архитектура такого проекта;
- развертывание Heritrix'а и интерфейса над архивами для рядовых пользователей;
- программирование сервиса резервного копирования архивов с сохранением на Archive.org, Backblaze и Amazon Drive и другие сервисы (возможно);
- развернуть отдельный экземпляр CKAN'а и туда загрузить ссылки на все архивные файлы с метаданными и тем самым сделать поиск хотя бы по описаниям архивов.

И, конечно, самое главное - приоритезация того что надо краулить и сохранять.

Пока же:
- если у Вас есть какие-то архивные данные/материалы которыми Вы были бы рады поделиться;
- если Вы хотите организовать веб-архивацию в своей области или в своей теме и ищите совета;
- если Вы готовы помочь проекту хостингом;
- если Вы готовы помочь проекту финансово или же есть какие-либо другие предложения;

То пишите мне на Ibegtin@infoculture.ru

Ссылки:
[1] https://www.fms.gov.ru
[2] http://www.cbr.ru/finmarkets/?PrtId=archive
[3] http://www.nationalarchives.gov.uk/
[4] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
[5] http://www.archiveteam.org/index.php?title=Main_Page

#archives #opendata