Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Многие контрольные ведомства раскрыли свои внутренние контактные данные, чтобы граждане имели возможность обратиться к сотрудникам напрямую. Некоторые даже создают отдельные приложения и горячие линии, а на своих сайтах и в соцсетях публикуют актуальную аналитику или полезную информацию, связанную с пандемией.

ВОА Мексики запустило [1] бесплатное электронное приложение для смартфонов и планшетов, которое позволяет напрямую обращаться в ведомство по вопросам его деятельности.

ВОА США с помощью горячей линии Fraudnet [2] принимает заявления о возможных случаях мошенничества со средствами, которые были выделены на противодействие COVID-19.

Глава ВОА ЮАР [3] активно информирует граждан о ситуации с распространением COVID-19 в республике. Ежедневно в Twitter появляются репосты обновлений статистических данных, публикуются правила изоляции, информация о мерах, принимаемых государством.

Всё это можно узнать из регулярного дайджеста Счётной палаты [4] подписаться на который можно в футере любой страницы на сайте Счетной палаты [5]

P.S. Как человек получающий десятки рассылок самых разных госорганов могу сказать что одна из худших рассылок новостей у ФНС России, а в последние полтора года одна из лучших рассылок именно у Счетной палаты.

Ссылки:
[1] https://twitter.com/ASF_Mexico/status/1245049289438457857
[2] https://www.gao.gov/about/what-gao-does/fraudnet/
[3] https://twitter.com/AuditorGen_SA
[4] http://audit.gov.ru/upload/pdf/Covid-19-SIA.pdf
[5] http://audit.gov.ru/

#open #sprf
Microsoft предложили российским властям полгода бесплатного использования их сервисов, о чём пишет Коммерсант [1]. В статье есть же и мой комментарий, но я хочу сказать не об этом.

Разговоры о том существует ли конкуренция "Microsoft vs Linux" или "проприетарное ПО vs открытое ПО" или "что угодно vs импортозамещённое ПО" - эти разговоры давно устарели, также как и мышление в этих категориях. Потому что на корпоративном и государственном рынке в мире есть один ключевой тренд - это облачные комплексные инфраструктуры, поддерживающие SaaS, PaaS, IaaS, но замыкающие внутрь себя насколько это возможно. В мире есть 3 основных игрока в этой среде: Amazon, Google и Microsoft. Соответственно с продуктами AWS, Google Cloud и Azure

В 2019 году правительство Австралии заключило общегосударственный контракт (whole-government contract) с Amazon для работы с AWS Cloud в регионе Австралии (ЦОД Amazon расположенный в Сиднее) [2]

И ранее я писал о том что те же Microsoft и Google заключили долгосрочное партнерство с национальным облачным оператором Польши [3]

Органы власти в США, Европе и большей части того что принято называть "западным миром" всё более под рыночным давлением выбора построения собственной инфраструктуры или перехода на одного из этих трёх провайдеров. Большинство сейчас выбирают гибридные модели когда часть научной инфраструктуры и часть публичной части сервисов уходит в облака.

И этот тренд очень сложно остановить, потому что, опять же, крупнейшие игроки теперь при скупке технологических стартапов или при разработке своих технологий давно уже не отдают их в виде ПО, а исключительно в виде онлайн сервисов или микросервисов внутри их архитектуры.


[1] https://www.kommersant.ru/doc/4344040
[2] https://www.zdnet.com/article/amazon-web-services-scores-australia-wide-government-cloud-deal/
[3] https://publielectoral.lat/begtin/1897

#infrastructure #it
Сингапурский университет управления (Singapore Management University) получили грант в S$15 миллионов (примерно 774 миллионов рублей) от National Research Foundation Singapore (NRF) на создание центра по вычислительным законам [1].

Часть команды центра - это команда стартапа Legalese [2] созданного под девизом "Software is eating law" (ПО пожирает закон).

Пока неизвестно будет ли это в рамках этого финансирования или дополнительно, скорее дополнительно, S$10.8 миллионов на перевод в вычислительную форму сингапурских законов и иных регуляторных документов. О подходе можно немало узнать из их свежеопубликованной вакансии [4].

Вполне возможно нас скоро ждёт очень интересный результат масштабного исследовательского проекта в сфере legaltech.

[1] https://news.smu.edu.sg/news/2020/03/11/smu-awarded-15-million-grant-computational-law-research
[2] https://legalese.com
[3] https://www.globallegalpost.com/big-stories/singapore-government-commits-$11m-to-fund-legal-tech-research-programme-77990850/
[4] https://docs.google.com/document/d/1wZ1DnmRtXQEOfkfpuXxYqFi5fMK1A7_0QFJDIawQtr0/edit

#law #lawasacode #digital #government #singapore #legaltech
Во Франции законодатели приняли закон об удалении контента связанного с терроризмом или педофилией в течении 1 часа после получения уведомления от регулятора [1], для остальных видов нежелательного контента срок составляет 24 часа. Причём, в первую очередь, это касается международных компаний таких как Facebook, Twitter, Instagram, YouTube и других, поскольку штрафы рассчитываются в 4% от глобального дохода компании.

Закон довольно сильно похож на NetzDG [2], германский закон о защите от hate speech в котором установлены штрафы до 50 миллионов евро за его нарушения и также направленный против интернет-гигантов и крупнейших платформ.

Это важное отличие в регулировании в России и странах Европейского союза. Российское регулирование заточено под штрафы мелких местных компаний, фактически подталкивая крупных к нарушениям. А европейское регулирование построено по модели максимально крупных штрафов для крупнейших мировых игроков. Что хуже из этого? Российская модель регулирования в этой области, по сути не работает, а европейская ориентирована на защиту граждан, но не бизнеса, отчего крупнейшие цифровые игроки предпочитают другие юрисдикции, но и это не спасает в ситуации экс-территориального регулирования в ЕС.

[1] https://www.reuters.com/article/us-france-tech-regulation-idUSKBN22P2JU
[2] https://en.wikipedia.org/wiki/Netzwerkdurchsetzungsgesetz

#laws #france #germany #regulation
Латиноамериканское и черное население США, а также женщины и необразованная часть населения - это главные безработные из-за COVID-19, о чём можно прочитать в заметке Towards Data Science [1]. Более всего работу потеряли наименее образованные работники, их безработица выросла с 5.5% до 20% с января по апрель 2020 года.

Неизвестно пока насколько подобная ситуация повторяется по другим странам. Детальная ежемесячная статистика занятости в США [2] даёт довольно много возможностей по анализу данных, но есть риски что и в других странах ситуация может быть похожей.

[1] https://towardsdatascience.com/digging-deeper-into-coronavirus-unemployment-statistics-a17d2e66bf47
[2] https://data.bls.gov/cgi-bin/surveymost?ln

#data #opendata #usa #unemployment
"How COVID-19is changing the world: a statistical perspective" - доклад ООН и десятка других международных агентств о том как пандемия COVID-19 меняет мир с точки зрения статистики [1]. Много разных срезов и взглядов на мир, с точки зрения рабочей силы, государственного долга, ВВП, образования и многого другого.

Конечно, важно помнить что средние цифры по миру и даже по странам - это взгляд сверху и на гипер-локальном уровне последствия могут быть как лучше так и хуже, но и понимать всё что творится в мире также важно.

Доклад хорошо подан визуально, содержит много интересного и всячески полезен в понимании того на какие стороны нашей жизни пандемия влияет, даже если мы этого сразу не замечаем.

[1] https://unstats.un.org/unsd/ccsa/documents/covid19-report-ccsa.pdf

#dataviz #un #data #reports #covid19
У Юрия Синодова (@sinod) годный наброс про состояние текущих медиа [1].

Я именно про медиа, а не про журналистику, потому что с журналистикой у нас большая беда, конечно.

Лично мне более всего в текущей журналистике, особено в деловой, более всего не нравится:
1. Уход в сторону кликбейтовых "отглагольных" заголовков.
2. Резкое падение качества, и не-политических расследований, и инсайдов с рынка.
3. Избегание конфликтов и попытки сохранять со всеми ровные отношения приводит к тому что ключевые новости рынка не появляются.
4. Отсутствие жесткого отстаивания ключевых ценностей и принципов профессии за пределами своих редакций. Та же открытость госорганов/корпораций и тд. нужны, в первую очередь, журналистам для их профессиональной работы. Но слышен ли их голос? Нет.

Зная многое что происходит внутри, общаясь с журналистами и редакторами, я, конечно, понимаю что всё это следствия, а не первопричина болезни.

И тем интереснее почитать и рефлексию Юрия на с его взглядом.

Что ждёт российские медиа в будущем, вот в чём вопрос.

[1] https://roem.ru/15-05-2020/282292/medijnaya-reznya-benzopiloj/

#journalism
Власти Республики Татарстан уничтожили базу цифровых пропусков и все её резервные копии [1], это сведения о более чем 1,7 миллионах жителей Республики и 14 миллионов выданных пропусков. Пока это первый российский регион, который не только ввел систему цифровых пропусков, но и целенаправленно её уничтожил.

Тот момент когда этика работы с данными имеет значение и наличие тех кто действует в соответствии с ней даёт надежду что в России ещё есть те кто понимают все риски создания "цифрового концлагеря". Пока что власти Татарстана самые разумные на фоне пандемии и хочется лишь пожелать властям остальных субъектов федерации, "не забыть" удалить все данные, а для лучшей памяти принять соответствующие нормативные документы уже сейчас.

[1] https://digital.tatarstan.ru/rus/index.htm/news/1749226.htm

#covid19 #digital #tatarstan
То что данные нарушителей самоизоляции оказались в открытом доступе [1] - это можно считать чем-то, в каком-то смысле неизбежным событим. Российские власти редко когда реализовывали сервисы работы с гражданами так чтобы там не возникало утечек, от неграмотности разработчиков или от сливов сотрудников. Я напомню про мой доклад 2019 года [2] про "юридически допустимые", но фактически нет утечки данных и государственных информационных систем. В принципе же ситуация такова что на специальных форумах "пробива информации" 'эти сведения рано или поздно появятся.

Ключевой вопрос в ответственности тех в Мэрии Москвы (ДИТ Москвы) кто допустил подобное.

Ссылки:
[1] https://www.forbes.ru/newsroom/tehnologii/400733-pasportnye-dannye-narushiteley-samoizolyacii-okazalis-v-otkrytom-dostupe
[2] https://begtin.tech/pdleaks-p3-govsys/

#privacy #covid19
Многие ведущие компании начали увольнять сотрудников, другие замораживать их найм и есть те кто и сейчас активно набирают новых людей. В небольшом рекрутинговом стартапе Candor организовали краудсорсинговый мониторинг увольнений, заморозки найма и найма по более чем 7699 компаниям [1]

Довольно много интересного и гораздо более объёмная картина чем если мониторить отдельные новости о массовых увольнениях.

Ссылки
[1] https://candor.co/hiring-freezes/

#jobs #layoffs
Тем временем канадский регулятор оштрафовал Facebook на 9 миллионов канадских долларов ($6.5 миллионов долларов США, примерно полмиллиарда рублей) за введение в заблуждение о приватности пользователей [1].

Ранее европейские регуляторы принимали законопроекты об оборотных штрафах и штрафах до 50 миллионов Евро [2], по другим обстоятельствам, но смысл не меняется - серьёзные регуляторы "бьют" международные корпорации единственным действенным способом, штрафами сопоставимыми с размерами их бизнеса.

Здесь я от себя прокомментирую что подобная ситуация в России, почти наверняка, невозможна. Российские регуляторы могут сколь угодно угрожать блокировать зарубежные социальные сети, но не могут ввести и, самое главное, применить аналогичное регулирование. Причина этого в размере рынка и общей политической ситуации. Почти 100% что при подобном российском регулировании международные игроки, либо просто уйдут с российского рынка, или уведут дела в международные суды, или просто проигнорируют.

По той причине что для того чтобы оказывать влияние на крупнейших игроков, нужно иметь либо значительный рынок (а это, увы не про Россию), либо находится в "условно западной" экосистеме Интернета. Чем больше Рунет самоизолируется от мира, тем больше вероятность что действия российских регуляторов в этой области будут бесперспективны.

И, в любом случае, важно помнить что в противостоянии национальных регуляторов и международных корпораций нет какой-то одной правой стороны. Интересы пользователей могут как нарушать так и защищать как государственные органы так и крупнейшие корпорации.

Ссылки:
[1] https://www.bbc.com/news/world-us-canada-52640785
[2] https://publielectoral.lat/begtin/1908

#regulation #fines #canada #facebook
Microsoft выпустили большое обновление инструментов для Windows 10. Об этом пишет CNews [1], а также Microsoft у себя на сайте [2]

Важное в обновлениях:
- Windows Terminal [3] - приложение для замены классической командной строки. Можно открывать множество окон командной строки с PowerShell, Windows Linux Subsystem, классической командной строки и командной строки облака Azure. И всё это с открытым кодом [4]
- Microsoft Package Manager [5] - позволяет устанавливать большое число нового ПО с командной строги, также как в Linux и другие ОС было принято ещё с незапамятных времён
- Windows Linux Subsystem 2 (WSL2) [6] - ещё лучшая поддержка Linux сред, с упрощением установки ПО, обновления, эмуляции и так далее.

Я от себя добавлю что наиболее ценное из этих изменений - это обновление WSL и, в принципе, развитие этих технологий. Многие продукты работы с данными работающие только на Linux сейчас без труда можно ставить на Windows 10 и это более чем удобно для практической работы с данными.

Windows Terminal по функциям очень напоминает консольный эмулятор Cmdr [7] которым я давно пользуюсь и код которого также открыт [8], но тут ничего плохого в такой конкуренции нет, cmdr гораздо более гибок, а Windows Terminal лучше состыкован со средой Azure.

То же самое с управлением пакетами в Windows 10. Много лет существует Chocolatey [9] также с открытым кодом [10] через который доступны уже более 7600 приложений. А также Scoop [11] и just-install [12]. Поэтому главное достоинство пакетной установки от Microsoft - это официальность, но, конечно, она будет конкурировать с уже существующими популярными альтернативными инструментами.

Ссылки:
[1] https://www.cnews.ru/news/top/2020-05-20_v_windows_10_poyavilis_novaya_komandaya
[2] https://devblogs.microsoft.com/commandline/the-windows-subsystem-for-linux-build-2020-summary/
[3] https://docs.microsoft.com/ru-ru/windows/terminal/
[4] https://github.com/microsoft/terminal
[5] https://devblogs.microsoft.com/commandline/windows-package-manager-preview/
[6] https://devblogs.microsoft.com/commandline/the-windows-subsystem-for-linux-build-2020-summary/
[7] https://cmder.net/
[8] https://github.com/cmderdev/cmder
[9] https://chocolatey.org/
[10] https://github.com/chocolatey/choco
[11] https://scoop.sh/
[12] https://github.com/just-install/just-install

#windows #linux #update
Роботизированная журналистика иногда пугает журналистов, но она, скорее про автоматизацию чернового труда и избавление этой профессии от чернорабочих рерайтеров. Хотя ещё и неизвестно станет ли профессии лучше от роботизации этого рерайта.

А вот технологические стартапы близкие к этой области возникают, хотя и часто называются по другому. Например, Ax Semantics [1], германский стартап по автоматизации копиратинга. Привлекли неизвестную сумму от 6 инвесторов [2] и продают сервис автоматизации отчетов, написания тестов, описания продуктов и так далее.

На самом деле такие авто-пишущие продукты наиболее востребованы именно в написании текстов для потребителей с описанием товаров.

Поэтому журналистам пока опасаться стоит гораздо меньше чем рядовым копирайтерам. Но в The Stuttgarter Zeitung уже автоматизируют с их помощью спортивные обзоры и обзоры качества воздуха, развивая у себя робожурналистику [3]

Ссылки:
[1] https://en.ax-semantics.com/
[2] https://www.crunchbase.com/organization/ax-semantics
[3] https://en.ax-semantics.com/portfolio/stuttgarter-zeitung

#opendata #data #robojournalism #datajournalism #germany #startups
Меня множество журналистов в последние дни спрашивают про то как я отношусь к Единому федеральному информационному ресурсу содержащему сведения о населении (ЕФИР). Законопроект Госдума приняла только что во втором чтении [1], без сомнения он скоро станет законом.

Для государства это:
- возможность отслеживать доходы и расходы семей/домохозяйств и ранее не сведенные вместе доходы граждан, соответственно гораздо гибче оптимизировать льготы и взимать налоги.
- лучше отслеживать изменения статуса человека: родился, женился, появился ребёнок, заболел, недееспособен, умер и соответственно лучше избегать мошенических схем с получением выплат на умерших людей и тд
- улучшить антикоррупционный мониторинг непомерно высоких расходов при формально низких доходов
- улучшить выявление серых и чёрных зарплат и организации проверок бизнеса
- конечно правоохранителям проще отслеживать граждан
- автоматизация взимания штрафов с граждан прямо из их зарплат, счетов и иных доходов

Для граждан опасно то что:
- появление этих данных на чёрном рынке
- появление "услуг пробива" информации
- злоупотребления внутри органов власти которым база данных будет доступна
- рост объёма средств которые надо отдавать государству
- риски появления новых налогов, штрафов и платежей в том числе автоматических, со счетов в банке
- риски потери льгот в виду реклассификации выдачи льгот по результатам работы искусственного интеллекта (такое есть в Испании)

Дополнительные риски
- расширение объёмов и источников собираемых данных решением Правительства РФ, законопроект именно Правительству передаёт полномочия по регулированию системы через установление порядка её функционирования
- возможность построения системы тотальной слежки через интеграцию с Госуслугами, особенно с приложением Госуслуг.

Ключевая проблема во всех подобных инициативах - это сбор данных о гражданах без общественного консенсуса.

И, учитывая что система сможет отслеживать не только отдельных граждан, но и семьи, то это серьёзный удар по институту брака. Значительное число граждан предпочтёт не оформлять свои отношения.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/759897-7

#privacy #government #fgis
Одна картинка важнее тысячи слов
Сбербанк и Тиньков Банк запустили свои порталы мониторинга ситуации в экономике на фоне коронавирус.

У Сбербанка это SberIndex [1] и у Тинькова это Tinkoff Coronaindex [2].
И там и там полезные сведения, я бы даже сказал очень интересные и для граждан и для рынка и для многих принимающих решения. Могу посетовать что они, к сожалению, не публикуют API или данные, но пытливые умы легко найдут данные внутри кода веб страниц. А если Вы знаете создателей этих проектов, напишите им что при наличии API их проекты будут ещё лучше, ещё востребованнее и тд.

Если кто-то знает аналогичные российские индексы/ежедневные мониторы экономической ситуации, а также если кто-то делает агрегаторы ежедневных экономических и социальных данных - пишите в чате https://publielectoral.lat/begtinchat или мне лично, я обязательно сделаю обзор таких проектов.

Ссылки:
[1] https://sberindex.ru
[2] https://index.tinkoff.ru/

#data #indexes #covid19 #tinkoff #sberbank
The Costs of connection [1] свежая книга о колониализме данных (data colonialism) вышедшая в августе 2019 года [2] и пока не переведённая на русский язык. Книга посвящена простой и неприятной истине что цивилизация и развитие технологий привели к явлению самоколонизации, когда объектами колонизации оказываются не далёкие и менее развитые страны и народы, а народы собственные из которых извлекается прибыль через владение их данными. Авторы пишут об этом и в продолжении книги в статье Colonising ourselves? An introduction to data colonialism [3] и, в отличие от заядлых искателей теорий заговора, их аргументы более чем взвешены, разумны и обоснованы.

Ключевой аргумент в том что если исторический колониализм аннексировал территории, их ресурсы и тела тех кто на них работал, то дата колониализм захватывает проще и глубже: захват и контроль человеческой жизни через присвоение данных которые могут быть извлечены для получения прибыли.

На фоне пандемии коронавируса возникает и другой запрос. Запрос на социальную справедливость. В основе которого ситуация когда за деньги можно купить. И здоровье, и отсутствие цифровой слежки, всё это становится новыми атрибутами роскоши. И, если ранее различия между колонизаторами и колонизируемыми были в цвете кожи, языке, религии, уровне развития науки и инженерной мысли, то сейчас эта грань стирается.

Всё это не новое явление и "внутренний колониализм" [4] существовал и ранее, сейчас лишь меняется форма его существования.
У этих же авторов есть интересные публикации о взаимосвязи законов и практик сбора данных и регулирования [5] и о datafication [6], процессе превращения в данные разных объектов и сторон нашей жизни.

Тем кто интересуется этой темой я также рекомендую обратить внимание на книги Шошанны Зубоф "Surveillance capitalism" [7] и сборник статей "The Datafied Society" [8] от группы авторов из Utrecht Data School [9]

Ссылки:
[1] https://colonizedbydata.com/
[2] https://www.sup.org/books/title/?id=28816
[3] https://blogs.lse.ac.uk/medialse/2020/03/19/colonising-ourselves-an-introduction-to-data-colonialism/
[4] https://en.wikipedia.org/wiki/Internal_colonialism
[5] https://policyreview.info/articles/analysis/making-data-colonialism-liveable-how-might-datas-social-order-be-regulated
[6] https://policyreview.info/concepts/datafication
[7] https://en.wikipedia.org/wiki/Surveillance_capitalism
[8] https://datafiedsociety.nl/the-book/
[9] https://dataschool.nl/

#data #privacy #government #datacolonialism
Такими темпами, строчки в резюме о работе в ДИТ Москвы, могут быть самым негативным фактором при будущем трудоустройстве его сотрудников.
Рубрика "Циничная ДИТовщина"
Когда федеральный ИТ-министр говорит, что не может повлиять на региональное ИТ-министерство, нарукожопившее и навязывающее всем несчастным, кого угораздило угодить под коронавирусные подозрения, мобильное приложение "Цифровой концлагерь" "Социальный мониторинг", это совсем не означает, что региональное ИТ-министерство крутое и независимое. Это, скорее, означает, что к региональному ИТ-министерству скоро могут прийти из другого федерального ведомства, которое не так трепетно относится к конституционным правам субъектов РФ.

"Максут Шадаев заявил «Известиям», что Минцифра не в силах повлиять на разработчиков программы, для того чтобы исправить все недочеты.
— Это не наше приложение, оно у нас нигде не проходило, это собственная инициатива Москвы. Оно разработано и функционирует за деньги города, является приложением регионального уровня. Поэтому мы им ничего поручить не можем, — признал министр.
Он также заверил «Известия», что на федеральном уровне распространять данное приложение по примеру Москвы власти не планируют."
Что будет с ДИТ Москвы после пандемии?
anonymous poll

Ничего не будет – 143
👍👍👍👍👍👍👍 62%

Наградят сотрудников медалями/грамотами/наградным оружием – 59
👍👍👍 25%

Заменят Эдуарда Лысенко на ещё кого-нибудь – 14
👍 6%

Проверки ФСБ/МВД/Роскомнадзора, посадки и отставки – 12
👍 5%

Всех [без]ответственных внесут в американские/европейские люстрационные списки – 2
▫️ 1%

Расформируют и создадут новый орган с нуля – 2
▫️ 1%

👥 232 people voted so far.
В последние годы порталы открытых данных перестали быть чем-то новым и прорывным, в основном они все основаны на нескольких решениях: CKAN, DKAN, OpenDataSoft, Dataverse и они как выполняли так и выполняют ключевую функцию доставки данных конечным пользователям. Иногда может показаться, а что же ещё может в них появиться? Так вот главное что может появиться, а новые сервисы доставки данных без порталов. Это сервисы управления пакетами данных очень похожих на системы контроля версий или системы управления пакетами ПО в Unix.

Datahub.io
Проект компании Datopian вышедшей из Open Knowledge Foundation. Основная его идея в том чтобы публиковать тщательно упакованные наборы данных в соответствии со стандартом Frictionless Data. Там не так много данных, но есть возможность публиковать свои наборы и есть возможность получать опубликованное там через API или утилиту командной строки "data". Каждый набор данных включает метаданные для интеграции их в свои системы. Ориентирован на табличные данные. Адаптирован более всего под язык Python, но есть много примеров на разных языках.

Ссылка: https://datahub.io

Data Package Manager for R (DPMR)
Система управления пакетами для языка R. Также основана на стандарте Frictionless Data, но уже заточенный под конкретный язык

Ссылка: https://github.com/christophergandrud/dpmr

Octopub
Проект Института открытых данных по автоматизации подготовки и публикации наборов данных. Довольно давно находится в стадии Beta, но продолжает развиваться. Важный акцент делают на валидации данных, как минимум на уровне форматов

Ссылка: https://octopub.io

Data Retriever
Сервис и код по подготовке наборов данных и доступа к ним для языков Python и R. В основном ориентирован на исследовательские данные.

Ссылка: https://www.data-retriever.org/

Dolt
Можно сказать Git для данных. Не даёт данным упаковки, но даёт интерфейс похожий на систему контроля версий Git для обновления данных и поддержания их в актуальном состоянии.

Ссылка: https://github.com/liquidata-inc/dolt

Data Version Control (DVC)
Система управления версиями данных ориентированная на машинное обучение. Заточено под данные относительно большого объёма, достигло версии пререлиза 1.0 и активно развивается. Значительно заточено под облачное хранение, такое как AWS S3.

Ссылка: https://dvc.org/

Sno.Earth
Заточено под геоданные и табличные данные, основной стандарт по которому работает это GeoPackage на основе которого даёт возможность работать с данными как система версионирования.

Ссылка: https://sno.earth/

Quilt
Утилита от создателей портала QuiltData, раздающем петабайтный архив данных поверх инфраструктуры AWS. Четко ориентировано на работу с данными как с кодом. Заточено под табличные данные, но возможно пригодно и для других задач.

Ссылки: https://github.com/quiltdata/quilt


Это всё, безусловно, не полный список. Существует множество инструментов внутри корпоративных решений, есть продукты умеющие версионировать справочники, есть много подходов к упаковке исследовательских данных и, конечно, за пределами данных, есть множество инструментов создания пакетов с контентом в архивной среде.

#data #datapackages #opensource