Национальный цифровой архив
2.37K subscribers
41 photos
4 files
111 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Мы в Инфокультуре проводим опрос по дню открытых данных в 2023 году. Одна из возможных тем - это цифровая архивация общедоступных и открытых данных. Если Вы хотите поучаствовать или даже выступить с докладом, то, пожалуйста, пройдите опрос.
Forwarded from Ivan Begtin (Ivan Begtin)
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.

Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.

Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7

Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)

#opendata #opendataday
⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе содержится более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive
Навеки вечные

Информация кажется доступной как никогда, но способы хранения данных остаются удивительно хрупкими.

Можем ли мы сохранить что-либо навсегда? Предлагаем к просмотру часовое TED-шоу с докладчиками, которые исследуют вопросы сохранения нашего прошлого, настоящего и будущего.

Смотреть: https://www.npr.org/programs/ted-radio-hour/1151692612/for-all-eternity
Интересное мероприятие Software Source Code as documentary heritage организованное ЮНЕСКО совместно с французским некоммерческим проектом Software Heritage о сохранении исходного кода.
Там много интересных докладов, например, об организации хранения петабайтов в человеческом ДНК и о том сжатии огромных объёмов открытого кода.
Но важнее то что открытый код рассматривается как часть культурного/цифрового наследия человечества.

https://webcast.unesco.org/events/2023-02-07-software-heritage/

#opensource #opendata #software
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2023!

4 марта 2023 года состоится ежегодный День открытых данных — онлайн!

Приглашаем разработчиков, ИТ-специалистов, дата-журналистов, гражданских активистов и других участников российского движения открытости. Некоторые темы выступлений:

— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.

— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.

— Мастер-класс «Визуализация открытых геоданных Москвы для медиа и соцсетей».

— Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике».

Слушайте доклады, принимайте участие в мастер-классах и становитесь частью движения, создавая и продвигая открытые данные в своей деятельности!

Программа мероприятия и регистрация уже доступны по ссылке: https://opendataday.ru/msk

#ODD2023 #OpenDataDay #OpenData
Forwarded from Инфокультура
Уже завтра состоится онлайн-мероприятие — День открытых данных 2023.

Мероприятие стартует в 11:00. Расписание выступлений доступно здесь: https://opendataday.ru/msk#program

В программе:
— Мастер-классы о том, как обрабатывать и визуализировать гео-пространственные данные.
— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.
— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.
— Использование открытых данных в общественном контроле в сфере ЖКХ.
— Цифровые архивы: как собираются цифровые коллекции открытых и общедоступных данных институтов памяти.

Трансляция мероприятия:
- https://opendataday.ru/msk#stream
- https://www.youtube.com/@Infoculture/streams

Слушайте доклады, задавайте вопросы спикерам и принимайте участие в мастер-классах и становитесь частью движения, продвигая открытые данные в своей деятельности!

#OpenDataDay #OpenData #ODD2023
#BetterTogetherThanAlone
They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽

На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.

По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.

Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.

Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.

Рекомендуем к просмотру!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В течение 27 мая Архив Санкт-Петербурга будет открытым

В честь Дня города (27 мая) Архивный комитет Санкт-Петербурга открывает на сутки доступ к документам, размещенным на портале "Архивы Санкт-Петербурга» (spbarchives.ru).

На сайте доступны различные исторические документы, в том числе и финансовые, например:

- Протоколы заседаний комиссии по бюджету (1928-1929)
- Переписка о финансировании по бюджету (1941-1942)
- Отчеты об исполнении бюджета г. Ленинграда (1940)
- Проекты районного бюджета Красногвардейского района (1942)
- Местный бюджет Ленинградской губернии (1926-1927)
- Протокол заседания комиссии по пересмотру бюджета Ленинградских академических театров (1928)

Есть несколько особенностей:
- оцифровано не все, поэтому лучше сразу поставить фильтр «только с электронными образами»
- доступ только по ЕСИА (Госуслуги)
- качество электронных образов не очень высокое, есть водяные знаки. Если нужны качественные сканы, то доступ только платный - 20 руб/страница.

На конкурс «Твой Бюджет 2.0» мы подавали идею проекта «Петербургский цифровой архив госфинансов и госуправления» и услышали критику о том, что «работа архивариусов стоит дорого, поэтому за нее нужно платить». Но мы, как налогоплательщики, уже заплатили за создание архивов и работу Архивного комитета. Тем более, не зная прошлого нельзя построить будущее, особенно если для получения знаний создаются искусственные барьеры.

У Яндекса есть поиск по архивам (yandex.ru/archive), который был бы невозможен, если бы архивы 7 российских регионов не публиковались в открытом доступе. К сожалению, Санкт-Петербурга в этом списке нет, но хочется надеяться, что власти города поймут, что открытость принесла бы городу гораздо больше, чем те небольшие деньги, которые архивная служба зарабатывает на простых и не очень богатых людях, большинство из которых хотят узнать историю своей семьи с помощью высокотехнологических инструментов. И если Яндекс и другие организации (тот же Минфин России) позволяют бесплатно искать по миллионам сканированных документов (в том числе и по рукописным с использованием алгоритмов распознавания текста), то документы из «закрытых» архивов, таких как Петербургские, остаются для нас малодоступными.

#госархив #открытыеданные #архивныйкомитет #санктпетербург #твойбюджет #госфинансы
В Австралии в конце прошлого года стартовала большая общественная кампания в Twitter SaveTrove в связи с тем что правительство страны сократило финансирование национальной библиотеки и проект Trove в виде онлайн архива и поисковика по 14 миллиардам исторических объектов оказался под угрозой закрытия. И вот хорошая новость, для него нашли $33 миллиона долларов в бюджете на ближайшие 4 года.

Про уникальность Trove писали многие австралийские авторы, в частности это лишь один из двух из списка государственных сайтов 15 наиболее популярных Австралии, кроме него популярным госсайтом является ещё сайт государственного СМИ ABC. Объёмы общедоступных данных публикуемых в Trove очень велики и включают не только оцифрованные произведения и экспонаты, но и digital-born объекты такие как веб-сайты из Australian Government Web Archive и иные материалы.

Кроме того что Trove является архивом это ещё и крупная социальная сеть из волонтеров помогающих исправлять распознанные тексты выложенные онлайн. Многие из волонтеров таким образом исправили миллионы строк текста и эта работа продолжается постоянно.

Trove можно смело отнести не только к австралийскому, но и к мировому культурному достоянию. В гигантской библиотеке проекта можно найти материалы на огромном числе языков, авторов и связанных с историческими событиями по всему миру.

#digitalpreservation #australia #trove #openarchives
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
22 июня Архивы Санкт-Петербурга снова откроются на сутки.

22 июня можно будет бесплатно осуществлять поиск по информационным ресурсам архивов (обычно это стоит 77 руб. в сутки) и просматривать цифровые образы с водяными знаками и в низком качестве (spbarchives.ru).

Скачивание цифровых образов без водяных знаков и в хорошем качестве по-прежнему стоит 20 р. за цифровой образ (страницу). Если вам нужные неоцифрованные материалы, то стоимость оцифровки будет составлять ~ 300 руб. за страницу (при себестоимости в 3 руб.).

Но еще больше удивляет (особенно людей, не погруженных в архивную деятельность) - взимание платы за использование собственной техники в читальном зале. Вы можете заказать требуемый источник в читальный зал и сфотографировать его на свою технику, но вам придется оплатить постранично.

По информации Архивного комитета Санкт-Петербурга, в соответствии с законодательством «во всех государственных и муниципальных архивах России взимается постраничная плата за использование своей техники». Это не может не удивлять.

Но даже при необходимости взимания платы, размер оплаты, насколько я поняла, устанавливается архивом или Архивным комитетом, и прейскуранты архивов вызывают большие вопросы.

К сожалению, это не все вопросы и проблемы, которые возникают при попытке собрать «Цифровую библиотеку госфинансов». Есть еще проблема в наличии у Архивных комитетов KPI по пополнению бюджета («не оберешь» граждан - не получишь премию), да и вопрос интеллектуальных прав на купленные цифровые образы и условий их использования тоже вызывает вопросы.

#цифровойархив #архивныйкомитет #открытыеданные #госфинансы
Цифровой двойник для сохранения государства и культуры Тувалу

Небольшое государство Тувалу, расположенное на тихоокеанских островах, находится на грани исчезновения. Это происходит из-за климатических изменений, повышающих уровень воды.

Столкнувшись с угрозой утраты собственной культурной самобытности, правительство решило создать цифровой двойник государства.

Проходят оцифровку документы, сохраняются фото, 3D модели и геопространственные данные географических объектов и ландшафта, доступ к государственным услугам и всем сопутствующим административным системам переводится в облако. Помимо этого, возможно использование дополненной и виртуальной реальности, чтобы позволить будущим поколениям тувалуанцев продолжать существовать как культура и нация, сохранить общий язык и обычаи предков.

Источник: The Guardian

Фото: Kofe gives a Cop26 statement while standing in the ocean in Funafuti in November 2021. Photograph: Tuvalu Foreign Ministry/Reuters
Hachette против Internet Archive и будущего доступа к данным

Как судебные решения о (не)-запрете предоставлять информацию в открытом доступе, иллюстрируют роль цифровых технологий и их влияние на закон об авторском праве. В основе статье — дело Hachette против Internet Archive, — и упоминаются кейсы компаний Sony и Google.

Автор описывает, что значит добросовестное использование открытых знаний и как меняется характер библиотек в цифровой среде.

Каких последствий можно ожидать из-за дисбаланса между правами создателей контента и ценностью доступа к открытым знаниям для общества, читайте по ссылке: https://nightingaledvs.com/hachette-v-internet-archive-data-access/
It is Web Archive Wednesday My Dudes

В Twitter среди веб-архивистов популярен тег #WebArchiveWednesday — что значит, как можно догадаться, день публикации контента, связанного с цифровыми архивами.

Сделали подборку новостей и находок по теме.

● The New York Times блокирует веб-краулер от Open AI, чтобы запретить сбор контента для использования в обучении алгоритмов искусственного интеллекта. Теперь официально в условиях использования контента появился запрет на использование «robots, spiders, scripts, service, software or any manual or automatic device, tool, or process designed to data mine or scrape».

● Веб-архивы — это беспорядок. Статья, опубликованная в открытом доступе, о том, как организовать хранение наборов данных и кода в notebooks, произведенных в процессе веб-архивирования.

● Awesome Web Archiving list. Ссылка на гитхаб репозиторий с набором полезных ссылок на ресурсы, инструменты, гайды и людей.

● Librarypunk: Web Archiving and Social Media. Если вы понимаете речь на английском или знаете, как организовать перевод, то рекомендуем послушать выпуск подкаста о веб-архивировании и социальных сетях. Или заглянуть в описание, где вы найдете полезные ссылки на материалы.

Enjoy! 🤓

#WebArchiveWednesday #opendata #digitalculture
Please open Telegram to view this post
VIEW IN TELEGRAM
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
Forwarded from Ivan Begtin (Ivan Begtin)
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation