Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлен BI портал Росстата http://bi.gks.ru где публикуются ряд показателей с возможностью их получения в машиночитаемом виде. А также планируется к удалению Витрина статистических данных (https://showdata.gks.ru), поскольку данный сайт более недоступен, при том что Росстат не уведомлял и предупреждал закрытии этой информационной системы.

В дальнейшем планируется добавить в каталог больше общедоступных BI систем органов власти в которых присутствует возможность получения данных в машиночитаемых форматах. Если Вы знаете такие порталы/сайты, пишите нам, мы их обязательно добавим в каталог․

#opendata #data #datacatalog #statistics
Много лет своей жизни я провёл анализируя данные госзакупок/госконтрактов/госфинансов. Это привело к созданию таких проектов как Госзатраты clearspending.ru и Госрасходы spending.gov.ru, а также множеству расследований публичных и непубличных. Я много что могу рассказать о том как система госзакупок в России формировалась, почему она открыта настолько насколько открыта и о истинной природе многих требований 44-ФЗ и 223-ФЗ которые регулировали систему госзакупок в целом.

По поводу предложений Валентины Матвиенко, главы Совфеда о моратории на действие закона о госзакупках, видимо она имела в виду 44-ФЗ, на время военных действий я много что могу сказать.

Особенность системы госзакупок в России в том что в одних и тех же законах открытость была смешана с процедурным контролем. В одном и том же 44-ФЗ прописаны, как все полномочия о контроле, так и требования к открытости. При этом это явления разного порядка.

Введение и усиление контроля изначально в 94-ФЗ и в 44-ФЗ далее было сделано для усиления связки Минфин, Казначейство, ФАС. Мало кто вспоминает что ранее регионы и муниципалитеты осуществляли контроль самостоятельно, более того, эта модель куда более соответствовала Конституции РФ поскольку субъекты федерации и муниципалитеты самостоятельно должны управлять своими бюджетами. Но ещё даже в первых редакциях законов только некоторые чиновники в Правительстве Москвы сопротивлялись этим введениям, но недолго.

Из-за огромного дисбаланса процедурных требований, требований бюджетного кодекса, ограничений по согласованиям в рамках госпрограмм и нацпроектов, сложившаяся российская система госзаказа крайне громоздка и построена так что контролёры всегда могут найти нарушения. Более того любой госзаказчик который хочет обеспечить качество работ или товаров, должен действовать также как и коррупционный заказчик. Вначале искать поставщика какими-то другими методами, а потом искать возможность заключить контракт именно с ним. Это будет долго объяснять почему невозможно иначе, но все кто когда-либо выступал в роли поставщика или заказчика по 44-ФЗ знают о чём идёт речь.

Открытость этой системы была её единственным плюсом. Открытость давала если не эффективность, то хотя бы отчасти возможность предупреждать совсем уж запредельные случаи воровства. Хоть какой-то гражданский контроль был возможен только благодаря раскрытию информации о том кто является победителем по госконтрактам.

Поэтому приостановка закона или его отмена в будущем имеет две важные грани։
1. Для кого-то из госзаказчиков эффективность работы повысится просто потому что отпадёт процедурный контроль. После этого ФАС можно распускать, но в какой-то степени в каких-то областях эффективность процессов в государстве даже повысится. В основном там где речь идёт про стройку и крупные контракты. Но это предположение, не аксиома.
2. А вот снижение открытости приведёт неизбежно к тому что всё что связано с контрактами затрагивающими жизнь людей станет сильно хуже. Общественный контроль всегда был в этой области сильнее и тут он будет резко ограничен.

Условно "правильная" реформа госзаказа должна была быть в разделении непосредственно регулирования процедур закупок и исполнения контрактов в один закон и обеспечение открытости отдельным нормативным документом. В изменении самого смысла контроля от контроля процедур, к контролю результатов и ещё много чего связанного с мониторингом исполнения контрактов, а не только с финансовым контролем.

Поэтому, если коротко, закон менять надо, а вернее писать новый(-е), а вот ставить мораторий на открытость глупо, и ни к чему хорошему не приведёт. Разве что кроме того что добьют региональную журналистику, вслед за федеральной.

Но это всё уже очень далеко от данных и технологий про которые мне говорить и писать куда интереснее.

#opengov #procurement
В рубрике интересных наборов данных, небольшой, но полезный датасет проекта Caniuse [1] посвящённый тому какие веб-технологии поддерживают современные браузеры. Всего 530+ технологий и 19 браузеров из которых 6 настольных и 13 мобильных. Кроме того что информацию можно наглядно посмотреть на сайте или скачать в JSON формате.

Вообще это большая работа и один человек делает то что обычно делают исследовательские лаборатории в крупных компаниях или университетах.

Ссылки։
[1] https://caniuse.com/
[2] https://github.com/Fyrd/caniuse

#opendata #datasets #browsers #web
Я очень давно не писал на тему того как не надо публиковать данные хотя примеров таких было когда-то очень много. Я до сих пор помню как многие органы власти в России публиковали данные с расширением XML которые потом оказывались экспортированными файлами разметки презентаций или файлов MS Word. Эдакая симуляция машиночитаемости.

Но часто публикация материалов - это не только вопрос машиночитаемости, данные могут быть в Excel, и даже текстовые документы бывают редкостью когда вместо них публикуют сканы.

Сегодня на сцене чиновники Департамента городского имущества города Москвы публикующие таблицы с данными о приватизированных помещениях запихивая протоколы внутрь файлов Excel [2]. Причём файлы в формате PDF, просто перетащенные в Excel и открываемые только через Excel, только если установлен именно Adobe Acrobat Reader. Потому что открывается через внедрённый OLE Object (те кто не знает, не заморачивайтесь, в данном случае это просто Windows специфичный способ запуска документов)

Я, честно говоря, более всего в недоумении как я сам раньше не додумался о таком прекрасном, в кавычках, способе выполнять разного рода требования по раскрытию информации.

MS Office позволяет устраивать хранение данных объектов до любой глубины.
А значит можно как в сказке про кощея утка в зайце, яйцо в утке, игла в яйце. Вот точно также можно хоть градостроительные планы прятать гигабайтного размера։
1. Работать с этим будет крайне неудобно
2. Поисковики умеющие индексировать файлы MS Office не углубляются во вложенные объекты
3. При этом все законы и требования о раскрытии тех или иных сведений такие случаи не покрывают. Формально требования все соблюдены.

От этого спасает, опять же, в кавычках, только то что чаще когда каким-либо официальным лицам не хочется чтобы граждане или бизнес работали с теми или иными документами, то они просто публикуют сканы, в особенности кривоватые.

Ссылки։
[1] https://www.mos.ru/dgi/documents/view/233957220/

#opendata #idiotseverythere #data #moscow #government
Элон Маск, по видимому, решил всё же разрушить экосистему Twitter'а и теперь Twitter API только за деньги [1]. Это повлияет на то что от соцсети отключаться очень многие сервисы, продукты и инструменты. Например, ранее Twitter был одной из самых лояльных к архивации социальных сетей и было несколько хороших инструментов по архивации контента. Теперь, похоже, как и Facebook, Instagram и другие в Twitter'е начнут ловить и блокировать разного рода ухищрения работать с их контентом через неофициальные API.

Не знаю из какой парадигмы в новой команде Twitter՛а исходили в этом решении, считали ли они бесплатных пользователей API нахлебниками, или просто то что надо монетизироваться любой ценой. К тому же есть примеры соц сетей вроде Facebook'а которая всегда была закрытой. Но по модели использования Twitter не Facebook и не Instagram. Его реально можно заменить на Mastodon, пусть и с неудобствами.

Ссылки։
[1] https://twitter.com/TwitterDev/status/1621026986784337922

#API #twitter #socialnetworks
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.


Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable

#opensource #data #startups #moderndatastack
В рубрике как это устроено у них. В Турции нет единого национального портала открытых данных, однако есть много государственных систем и региональных порталов где они публикуются.

Наиболее полный их список собран в Open data index of Turkey [1] репозитории на Github. Там перечислены ключевые национальные, региональные и частные инициативы, такие как։
- Data portal for statistics [2] портал данных статистической службы с возможностью выгрузки всех данных в машиночитаемой форме.
- IMM Open Data Portal [3] - портал открытых данных Стамбула, классический портал открытых данных на базе CKAN с 286 наборами данных
- Izmir Acik Veri Portali [4] портал открытых данных города Измир, 32 организации, 180 наборов данных
- Konya Acik Veri Portali [5] портал открытых данных города Konya, 16 организаций, 115 наборов данных

Кроме того в Турции довольно много открытых геоинформационных систем на базе ArcGIS данные откуда тоже доступны, хотя формально открытыми данными не являются.

Турецкий опыт нельзя рассматривать как пример именно продвинутого опубликования данных. Ничего нет про данные для ИИ, всё довольно слабо в части предоставления открытых API, нет национального портала открытых данных, но для понимания того как развивается открытость государства в других странах.

Турция вступала в Open Government Partnership в 2012 году, а в 2017 окончательно вышла из организации [6]. Но, практически все активности по открытости данных начались уже ближе к 2020 году. Без наличия национальных планов по открытости, а на уровне муниципальных инициатив.

Ссылки:
[1] https://github.com/evrifaessa/open-data-turkey
[2] https://data.tuik.gov.tr/
[3] https://data.ibb.gov.tr
[4] https://acikveri.bizizmir.com/
[5] https://acikveri.konya.bel.tr/
[6] https://www.opengovpartnership.org/turkey-withdrawn/

#opendata #turkey #opengov
В NYT статья о том как косвенным образом журналисты пытаются понять реальную смертность от COVID'а в Китае [1]. Журналисты взяли публикации некрологов двух государственных институтов и проанализировали вручную их число и возраст умерших. Если кратко, то смертность значительно выросла в декабре 2022 г. и январе 2023 г.

Всё это об альтернативных данных и о том как важно не доверять официальной статистике, в данном случае китайской, и искать другие, альтернативные данные. На альтернативных данных сейчас принимаются решения не реже чем на официальной статистике.

И, конечно, это большое искусство и много опыта нужно в том чтобы понимать как такие данные находить и собирать.

Ссылки:
[1] https://www.nytimes.com/interactive/2023/02/05/world/asia/china-obits-covid.html

#opendata #alternativedata #china #covid
У Jordan Tigani, основателя компании Mother Duck стоящей за СУБД DuckDB замечательный текст Big Data is Dead [1] который, трам-пам-пам, как вы догадались, о том что Big Data это уже давно мёртвый хайп. Не он первый и не он последний об этом говорит, но никогда не лишний раз напомнить.

Краткое изложение его текста։
- большая часть данных, на самом деле, не так уже велика
- а даже если велика то чаще всего нет необходимости делать запросы ко всем данным
- и даже если так, то чаще всего это можно сделать на одном компьютере
- если нет, то по прежнему данные можно суммаризировать и сжимать
- так почему же инструменты делают в основном для оставшихся 1% случаев?

Ссылки։
[1] https://motherduck.com/blog/big-data-is-dead/

#data #readings
В рубрике интересных открытых проектов на открытых данных, французский проект Inventaire [1] для коллаборативного ведения списков собственных книг и возможности делиться информацией с друзьями, коллегами и тд., в том числе запоминая кому и когда какие книжки ты отдавал или у кого ты их брал.

Особенность проекта в том что книжки сопоставляются с записями в Wikidata, а также данные проекта доступны в виде дампов [2] и API [3]

У проекта открытый код [4], его автор давний контрибьютор в Wikidata, а этот проект развивает с 2015 года.

Как и у всех подобных проектов, главные вопрос в экономической модели. Его создатель изначально делал проект на чистом энтузиазме, с 2019 года создал НКО в форме некоммерческой ассоциации и получил небольшие гранты от нидерландского фонда NLNet.

Ссылки:
[1] https://inventaire.io
[2] https://data.inventaire.io/
[3] https://api.inventaire.io/#/Entities
[4] https://github.com/inventaire/inventaire
[5] https://wiki.inventaire.io/wiki/Economic_model

#opendata #data #wikidata
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.

Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.

А вот Microsoft может получить существенную долю поискового рынка для Bing.

Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

#ai #microsoft #search
Forwarded from Инфокультура
Мы продолжаем работать над нашим проектом Каталога каталогов данных в котором собраны ссылки на порталы открытых данных, а также иные источники данных которые должны наполнять эти порталы. Бета версия нового портала размещена по адресу datacatalogs.infoculture.ru. Пока она, в основном, воспроизводит функции предыдущей версии, но даёт больше возможностей по фильтрации и больше метаданных теперь отображается на веб-странице.

Мы, также, приступили к добавлению в каталог источников данных по пост-советскому пространству. В первую очередь поддерживающих русский язык в этих источниках данных. В том числе это такие источники данных как։
- Данные Армении для Целей - Устойчивого Развития https://sdg.armstat.am
- ArmStatBank https://statbank.armstat.am
- Портал открытых данных Республики Узбекистан https://data.egov.uz
- Талдау. Информационно-аналитическая система Бюро Национальной статистики Агентства по стратегическому планированию и реформам Республики Казахстан https://taldau.stat.gov.kz
- Портал открытых данных Республики Казахстан https://data.egov.kz/
- Открытые данные Алматы (Smart Almaty) https://opendata.smartalmaty.kz/
- ASIS. Azerbajan statistical information service https://www.azstat.org/portal/?lang=en

Мы вносим в каталог, в первую очередь, источники по следующим категориям։
* порталы открытых данных
* порталы/каталоги репозиториев научных данных
* порталы/сайты с базами статистических показателей
* порталы геоданных
* сайты проектов открытого бюджета (как правило включают много наборов данных или документов которые должны ими быть)
* порталы справочников и классификаторов

Список постоянно пополняется. Если обнаружите ошибку или есть предложения по наполнению сайта, напишите нам, проект продолжает развиваться. А все материалы доступны под лицензией CC-BY.

#opendata #datacatalogs
Ещё одна любопытная альтернатива формату файлов parquet - это lance [1]. Обещают 100-кратное ускорение при произвольном доступе, совместимость с Apache Arrow и DuckDB. Создатели позиционируют это как альтернативу Parquet, Iceberg и Delta.

По формату есть дизайн гайд [2], презентация [3]. В общем и целом посмотреть на него будет любопытно, как минимум.

Остаётся, правда, вопрос с объёмом хранения, потому что опций сжатия нет, а если данные не сжаты, то хранение их будет дороже чем parquet.

Ссылки։
[1] https://github.com/eto-ai/lance
[2] https://eto-ai.github.io/lance/format.html
[3] https://docs.google.com/presentation/d/1a4nAiQAkPDBtOfXFpPg7lbeDAxcNDVKgoUkw3cUs2rE/edit#slide=id.p

#datatools #opensource
Интересное мероприятие Software Source Code as documentary heritage организованное ЮНЕСКО совместно с французским некоммерческим проектом Software Heritage о сохранении исходного кода.
Там много интересных докладов, например, об организации хранения петабайтов в человеческом ДНК и о том сжатии огромных объёмов открытого кода.
Но важнее то что открытый код рассматривается как часть культурного/цифрового наследия человечества.

https://webcast.unesco.org/events/2023-02-07-software-heritage/

#opensource #opendata #software
Я сегодня потратил какое-то время и посмотрел видео вначале встречи Президента РФ, а потом главы Пр-ва РФ с молодыми учёными и в обоих случаях речь шла про доступ учёных к данным. Понятно что на таких встречах все вопросы и выступления заранее готовятся, фильтруются и доходят в каком-то ограниченном объёме. Но без весьма серьёзного сожаления слышать всё это было невозможно. Состояние науки в РФ достаточно давно оказывается в состоянии когда Минобрнауки или РАН не имеют возможности/ресурсов/потенции/мотивации к тому чтобы научная информационная инфраструктура существовала и развивалась. Отсюда и запросы, вроде жалобы на отсутствие доступа к данным судовых измерений, к примеру.

Особенно учитывая что российская наука сейчас оказывается от мировой особняком, хорошо ещё что российским институциям дают возможность получать коды DOI и не все подписки на зарубежные научные ресурсы ограничены. Впрочем сами исследователи лучше чем я могут рассказать о своих проблемах.

А я расскажу о проблемах в странах где открытость исследований, наоборот, ставится во главу угла. В США сейчас у учёных развернулась дискуссия среди астрономов по поводу свежей темы госполитики по максимально оперативному раскрытию исследований на деньги налогоплательщиков. В частности, работа телескопов вроде Хаббл - это тоже расходы налогоплательщиков и, казалось бы, это очень хорошо что данные будут раскрываться сразу. Справедливо даже и может значительно ускорять научные работы большого числа учёных. А с другой стороны, многие астрономы активно пользовались тем что ранее материалы публиковались с 6 месячной задержкой и благодаря этому у них был эксклюзивный материал для научной статьи. А если публиковать сразу то другие узнают над чем ты работаешь. Так может и пропасть интерес к здоровой конкуренции. Об этом весьма подробно вышла статья What's the fairest way to share cosmic views from Hubble and James Webb telescopes? [1]

Но это, повторюсь, проблема другого рода. Это проблема как раз конфликта сложившихся общественных отношений, индивидуальной мотивации и требований государства по открытости. В данном случае государство в США выступает не ограничителем открытости, а, наоборот, принуждает к ней.

А применительно к отсутствию данных для исследователей в России, я напомню мою июльскую заметку Открытость как признак жизни [2]. Когда открытость не обеспечивается - это синоним обезжизнивания отрасли, либо в виду отсутствия кооперации между участниками, либо симуляции деятельности.

Ссылки:
[1] https://www.npr.org/2023/02/07/1154840710/whats-the-fairest-way-to-share-cosmic-views-from-hubble-and-james-webb-telescope
[2] https://begtin.substack.com/p/26

#opendata #openaccess #openscience
В рубрике как это устроено у них, проекты по систематизации доступа к данным и госсервисам для разработчиков в мире. Я несколько раз писал о таких проектах, но не грех и напомнить.

- API.GOUV.FR - каталог API, стандарты и рекомендации Франции
- API.GOVERNMENT.AE - каталог API Объединённых Арабских эмиратов
- API.GOV.UK - каталог государственных API Великобритании
- API.GOV.AU - австралийский государственный стандарт предоставления API и каталог общедоступных API
- DEVELOPER.VIC.GOV.AU - портал для программистов (каталог API) правительства штата Виктория, Австралия
- DEVELOPER.TECH.GOV.SG - портал для разработчиков от Правительства Сингапура, API, документация и тд.

Общедоступные API создаются на тех же принципах что и порталы открытых данных, в их основе восприятие ИТ компаний и ИТ специалистов как отдельной аудитории для коммуникации. Признание самого факта что государства создают продукты не только для конечных потребителей, но и развивают внутренний рынок ИТ продуктов и сервисов, предоставляют данные аналитикам и журналистам.

#opengov #government #api #opendata
Я регулярно рассказываю про порталы данных и другие госпроекты по открытости в странах мира. Можно уже создать такую отдельную регулярную рубрику и в этот раз про портал открытых данных Республики Киргизия data.gov.kg

Портал создан в 2019 году и содержит 646 наборов данных включающих 1167 файлов общим объёмом около 570Мб. Более всего наборов данных опубликовано статистическим комитетом, а наибольший набор данных это - Сведения по рецептам по Дополнительной программе ОМС, в общей сложности 229МБ.

Из плюсов։
- портал существует (это уже редкость для многих стран, например, в Армении его нет)
- есть несколько любопытных наборов данных
- портал работает на CKAN и предоставляет стандартизованное API

Из минусов։
- портал уже несколько лет заброшен, новые данные на нём почти не публикуют, последнее небольшое обновление в середине 2022 г.
- данных мало, даже только на сайте статкомитета Киргизии опубликовано более 10 тысяч Excel файлов статпоказателей
- геоданные полностью отсутствуют, хотя эти данные доступны на других государственных геопорталах
- информация о продуктах на базе этого портала не собирается, новости не публикуются, есть ощущение что ничего не происходит
- машиночитаемых форматов практически нет, работы над переводом Excel файлов хотя бы в CSV не наблюдается

Общее итоговое ощущение что портал "висит в воздухе", без потребителей, мотивации госорганов к раскрытию данных, методик его работы, ответственных и тд. И всё это за довольно короткий срок, буквально в 3 года.

Поэтому приходится рассматривать его скорее как антипример госпортала открытых данных. При том что довести его до ума не требует ни больших сил, ни ресурсов, ни много людей.

#opendata #kyrgyzstan #dataportals
В продолжение анализа про портал открытых данных Кыргызстана я в форме большого лонгрида написал в рассылку заметку "Что не так с порталом открытых данных Узбекистана?"․ Лонгрид получился потому что и сам портал казался больше, анализ его должен был быть куда более кропотливым.

Продублирую тут итоги.

Выводы очень неутешительны. 6623 набора данных в итоге оказываются всего лишь 40 мегабайтами данных, а фактическое число наборов данных оказывается искусственно раздутым. Мониторинг наборов данных выполняет даже не декоративную, а скорее манипулятивную функцию не давая реальной картины, но показывая обновлёнными данные которые совершенно точно не обновлялись. Даже портал открытых данных Киргизии, при всего лишь 646 наборах данных в Excel оказывается больше по объёму, не говоря уже о многих других порталах открытых данных других стран.

#opendata #uzbekistan #dataportals #government
В рубрике интересных наборов данных, сайт День сурка (Groundhog-Day.com) [1] где собрана база из 74 животных предсказателей длинной зимы или ранней весны, включая 43 сурка.

Сделано явно с большой любовью к животным и к данным, потому что у сайта есть открытое API [2] с информацией о всех животных, их местонахождении и предсказаниях.

Ссылки:
[1] https://groundhog-day.com
[2] https://groundhog-day.com/api

#opendata #api