Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
У ОЭСР вышла свежая публикация по теме регионального развития Using private sector geospatial data to inform policy [1] с обзором государственно-частных партнерств по созданию продуктов на основе геоданных поставляемых и государственной геоинфраструктуры и частных поставщиков и партнеров. Документ любопытный большим числом ссылок, форматов партнерства и конкретных рассмотренных примеров из Евросоюза, Южной Кореи, Индии, Канады и других стран.

Впрочем главное в документе это не только примеры, но и институциональная рамка таких партнерств, а это Data Partnership [2], а это сотрудничество между международными организациями и технологическими компаниями, способствующее эффективному и ответственному использованию данных третьих лиц в международном развитии.

Организованное под эгидой Мирового Банка и в партнерстве со всем крупным биг тех сектором и крупнейшими "игроками рынка" международного развития.

Я об этих партнерствах писал довольно мало, хотя это важное изменение с политике крупных межгосударственных структур и по масштабам оно гораздо больше чем политика работы с открытыми данными.

Однако, возвращаясь к конкретно этому документу, геоданные являются одним из наиболее приоритетных источников партнерств потому как органы власти слишком часто не обладают ресурсами условных Google или Meta по сбору данных о каждом жителе. А для бигтеха - это возможность иметь про запасы аргументы в разговорах с регуляторами почему они не такие плохие и что слежка за всеми оправдана.

Ссылки:
[1] https://www.oecd-ilibrary.org/urban-rural-and-regional-development/using-private-sector-geospatial-data-to-inform-policy_242f51b8-en
[2] https://datapartnership.org/

#data #regulation #policies #oecd #datapartnership
В рубрике как это работает у них, шведский портал данных о COVID-19 The Swedish COVID-19 & Pandemic Preparedness Data Portal [1]. Создан командой проекта SciLifeLab [2] который, в свою очередь, создан консорциумом 4-х государственных университетов, как проект по работе с данными о науках о жизни.

На сайте одновременно есть наборы данных, результаты исследований, публикации, научные статьи и информация о идущих исследованиях и их планировании. В итоге это не только геномные данные, но и все остальные данные связанные с пандемией прямо или косвенно.

Ссылки։
[1] https://covid19dataportal.se/
[2] https://www.scilifelab.se/

#opendata #covid19 #datasets
В Open Government Partnership опубликовали доклад Broken Links: Open Data to Advance Accountability and Combat Corruption [1] где на основе результатов Global Data Barometer подсветили практики открытости по всему миру, в первую очередь в странах входящих в OGP, на постсоветском пространстве - это Латвия, Литва, Эстония, Украина, Киргизия, Грузия, Армения и Азербайджан. В данном случае у них акцент на открытости и прозрачности в контексте борьбы с коррупцией и подотчетности власти. Обзор хорош конкретными примерами, вроде украинской системы системы закупок Prozorro, или Латвийского реестра лоббистов, или изменения в регулировании Армении с раскрытием бенефициаров в реестре владельцев компаний.

В российских реалиях обзор применим только с точки зрения понимания "как всё развивается у них", Россия не входит в OGP, а для многих постсоветских и не только стран увидеть пробелы в собственной открытости.

Ссылки։
[1] https://www.opengovpartnership.org/broken-links

#opendata #opengov
Разное полезное чтение про данные, технологии и не только։

- How Misused Terminology is Damaging the Data Field - заголовок слегка провокационный, а по сути там разбор того как связаны и пересекаются термины вроде Business Intelligence, Data engineering, Data science и другие. Ценность в наглядности

- Fivetran free plan - для тех кто не знает, Fivetran - это крупнейший облачный ETL сервис, популярный среди тех кто пользуется крупнейшими облачными хранилищами, не в России в общем, и в обновлении прайс-листа они обнародовали бесплатный тариф с ограничением до 500 тысяч строк. Конкуренция среди продуктов такого типа растёт, так что шаг больше похож на вынужденный

- Whalesync: Announcing Our $1.8M Pre-Seed Round - стартап в виде ETL для контента, упоминают кучу коннекторов и интеграцию с Webflow и Wordpress. Анонсируют раунд в $1.8M что, в целом, немного для этого рынка, с одной стороны, а с другой - это pre-seed раунд.

- A Major App Flaw Exposed the Data of Millions of Indian Students - разработчики государственного индийского приложения для дистанционного обучения, Diksha, держали большие объёмы персональных данных на открытом, незащищённом сервере в облаке Azure. Этот сервер нашли исследователи безопасности, неизвестно сколько успели найти и забрать хакеры.

- 2023 Edelman Trust Barometer Reveals Business is the Only Institution Viewed as Ethical and Competent; Emerges as Ethical Force for Good in a Polarized World - это довольно интересное явление, ежегодный индекс доверия граждан к разным общественным институтам, государству, СМИ, бизнесу и др. В 2023 году резко вырос уровень доверия бизнесу причём связывают это с исходом более чем 1000 зарубежных компаний из России. Там ещё много интересного, например, растущий кризис доверия к государству. В 16 из 28 стран уровень доверия госорганам ниже 51%

- Global Renewables Watch - проект по мониторингу установок на солнечной энергии и ветровых турбин, делается Microsoft, Planet и The Nature Conservancy. Пока в private beta, интересно что будет когда откроется.

#readings
Интересная свежая научная статья The Semantic Scholar Open Data Platform [1] как видно из названия посвящена Semantic Scholar [2], огромной базе данных научных статей и научного цитирования созданная и развиваемая Allen Institute for Artificial Intelligence.

Очень интересно для всех кто занимается наукометрией и, также, в статье много подробностей о том как проект устроен внутри, исходном коде отдельных компонентов и многое другое.

Ещё интересны цифры и сравнение с другими проектами. Крупнейшая база статей на сегодняшний день Aminer [3], с оговоркой что реальный объём базы Google Scholar неизвестен.

Интересно, кстати, что такие проекты - это проекты с большой частью дата-инженерии. И, хотя там нет сверхплотных потоков ежесекундных транзакций, но решаемые задачи весьма непросты как в части сбора, так и в части обогащения данных.

Ссылки։
[1] https://www.semanticscholar.org/reader/cb92a7f9d9dbcf9145e32fdfa0e70e2a6b828eb1
[2] https://www.semanticscholar.org
[3] https://aminer.org

#readings #articles #opendata #openscience #openaccess
Я тут уже какое-то время размышляю над тем чтобы начать и написать лонгрид о том "Что не так с российским ГосТехом?", но эти размышления не проходят важный фильтр "а нахрена?". Потому что, во первых, надо для этого интересоваться госинформатизацией в России больше чем я сейчас интересуюсь, во вторых, оно и так само помрёт, и в третьих, это как в грязи копаться, если уж разбирать эту историю во всех подробностях.

Единственный резон в том чтобы об этом писать тщательно и детально, это сравнивать с проектами в других странах под общей идеей того как делать не надо.

Поэтому я напишу только самое очевидное оставив полноценное исследование/расследование/анализ за рамками и я повторю пару тезисов о которых не раз писал ранее.

1. В госсекторе если система/продукт/инфраструктура не является жизненно необходимой, она гарантированно умирает. (с)

Да, можно придумать безумную хрень и влить в неё 100500 миллиардов бюджетных средств, да многие ГИСы дублируют друг друга, да ведомства российские и не только большие мастера в лоскутной информатизации, но... важно понимать что есть информационные системы которые создавались 10-15 лет, и они никуда не денутся не по той причине что они хорошо сделаны.

Поэтому чтобы там не происходило, портал Госуслуг будет жить долго, или портал госзакупок, или портал госторгов, или Электронный бюджет и ещё много что. Да, эти системы могут переделывать, объединять, и тд., но лишь путём довольно сложных операций. Опытные госинформатизаторы и группы интересантов как внутри компаний поставщиков так и их лоббистов знали и знают что главное - это то чтобы от закрытия финансирования твоей системы пострадали ключевые функции государства или конкретного ведомства. Я таких случаев знаю очень много, не про все лишь могу/имею право рассказывать.

ГосТех в России пытаются протаскивать именно как информационную систему. Не архитектурную доктрину, не огненную команду сверхлюдей, не идеологическую основу, не концепцию, и даже не как фундаментальную цифровую инфрраструктуру, а именно информационную систему. При этом критической она не является, какой бы пиар шум не создавался, нормативкой она полноценно не обвязана, на ней пытаются создавать какие-то новые сервисы/информационные системы ни одна из которых критической не является.

Что это означает? что в любой момент финансирование можно прикрыть, ФКУ ГосТех переименовать во что нибудь другое (оно и ГосТех то стало после переименования), команду всю распустить, а не-нормативку почистить за короткий срок. И ничего не случится (с). А это означает что если госаппарат может без этого прожить, значит при любом последующем секвестре бюджета это всё порежут.

2. Сначала люди потом системы

Все без исключения инициативы по инновациям в госсекторе которые я знаю в мире - это инвестиции в людей. Гостех в Сингапуре - это команда, GDS в Великобритании - это команда, 18F в США - это команда и так далее, таких команд много. Все эти команды набирались по модели сбора топовых разработчиков для разработки открытого кода, дебюрократизации, работы в роли пожарных команд и других альтернатив классическим отношениям в госсекторе։ заказчик-подрядчик. Продукты созданные этими командами имеют ценность, но именно как капитализация ценности этих команд для государства.
Так вот Гостех в России такой командой не является. Это некая закрытая группа без заметных публичных результатов кода, документов, гайдов, системных подходов и всего остального. В текущей модели существования - они прослойка между госорганами и платформой Сбербанка (читай - Сбербанком) и являются "приложением к единой цифровой платформе". Иначе говоря, по модели реализации Гостеха в России, люди вторичны, информационная система первична. А что касается информационной системы см. пункт 1. Гайд по Agile сделанный командой ГосТех՛а - это ещё раз подтверждает. Это обезличенный забюократизированный документ с заложенными минами привязки к ЕЦП Гостех и при этом оторванный от реальности госпроектов ограниченных законами о госзакупках, госслужбе и практике согласования с Минцифрой, планами информатизации и последующими проверками прокуратуры и Счетной палаты. Кто-то скажет что, "но иначе же невозможно!". Возможно, и как раз большая часть инновационных команд в мире специализировались на том чтобы это было возможно.

Инвестиции в людей и сбор сильных команд в госсекторе не является простой задачей, в мире тоже не так много примеров, но они есть. в России они мне почти неизвестны, а там где они есть присутствует очень сильная отраслевая специфика.

Выводы можете сделать самостоятельно.


#govtech #russia #government #thoughts
Любопытный стандарт публикации продуктов на данных Open Data Product Specification [1] специально для тех компаний и не только компаний которые торгуют данными. Да, да, это не [Open Data] Product specification, а именно [Open] Data Product Specification. Слово Open тут про открытость стандарта, а не про открытые данные.

Что, впрочем, не делает стандарт менее любопытным. Идея любопытная как альтернатива спецификациям общедоступных данных для повышения находимости именно коммерческих данных. Хорошо бы дополнило стандарт Schema.org.


Ссылки։
[1] https://opendataproducts.org

#opendata #data #specifications #
В рубрике интересных проектов на данных, общественный проект OpenAQ (Open Air Quality) посвящённый, как вы догадались, качеству воздуха и инструментам его измерения. Они обновили свой навигатор по датчикам, теперь можно увидеть [1] их во многих странах, особенно в Евросоюзе и США. А также много датчиков в Чили, Австралии и в Таиланде.

Проект любопытный, с открытыми данными, интерфейсами для разработчиков и тд.

Ссылки:
[1] https://explore.openaq.org/

#opendata #datasets #API #airquality #lifequality
Как продвигать открытость органов власти и международных структур финансируемых за счет общественных средств? Публичными кампаниями. Например, есть такое Международное энергетическое агентство (IEA) которое финансируется взносами стран участников, собирает от них данные, но предоставляет их только за деньги [1].

Активисты запустили сайт Free IEA Data [2] ещё год назад и тогда же был большой текст объясняющий зачем это нужно [3]. Если кратко, то это сейчас единственный источник подробных и выверенных данных по энергопроизводству и энергопотреблению, охватывающий почти весь мир.

Лично я подозреваю что недоступность этих данных как открытых вызвана не только жадностью, но и тем что ряд стран не хотят делать общедоступными их данные и могут перестать передавать их IEA в случае полной открытости.

Но я лично согласен что такие данные должны быть общедоступны и общественные кампании - это одна из форм воздействия на лиц принимающих решения в пользу открытости этих данных.

Ссылки:
[1] https://www.iea.org/data-and-statistics
[2] https://free-iea-data.com/
[3] https://ourworldindata.org/iea-open-data

#opendata #energy
Dataskop [1] свежее приложение от команды AlgorithWatch по сбору и визуализации данных которые собирает о пользователе ТикТок и с возможностью пожертвовать эти свои данные на исследования в области приватности. Сама идея интересная, делать приложения по анализу приватности в виде приложения с браузером внутри. Вместо того чтобы делать расширение для браузера, согласовывать его с владельцем магазина расширений, проще поместить Chromium в оболочку и делать исследование в замкнутом пространстве. Хорошая идея, тянет на возможность её универсальной реализации, не только применительно к ТикТоку.

А пока можно скачать приложение и поэкспериментировать. Я вот, к сожалению, проверить не могу, ТикТоком совсем не пользуюсь.

Ссылки:
[1] https://dataskop.net/overview-in-english/

#privacy #software #tiktok
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлен BI портал Росстата http://bi.gks.ru где публикуются ряд показателей с возможностью их получения в машиночитаемом виде. А также планируется к удалению Витрина статистических данных (https://showdata.gks.ru), поскольку данный сайт более недоступен, при том что Росстат не уведомлял и предупреждал закрытии этой информационной системы.

В дальнейшем планируется добавить в каталог больше общедоступных BI систем органов власти в которых присутствует возможность получения данных в машиночитаемых форматах. Если Вы знаете такие порталы/сайты, пишите нам, мы их обязательно добавим в каталог․

#opendata #data #datacatalog #statistics
Много лет своей жизни я провёл анализируя данные госзакупок/госконтрактов/госфинансов. Это привело к созданию таких проектов как Госзатраты clearspending.ru и Госрасходы spending.gov.ru, а также множеству расследований публичных и непубличных. Я много что могу рассказать о том как система госзакупок в России формировалась, почему она открыта настолько насколько открыта и о истинной природе многих требований 44-ФЗ и 223-ФЗ которые регулировали систему госзакупок в целом.

По поводу предложений Валентины Матвиенко, главы Совфеда о моратории на действие закона о госзакупках, видимо она имела в виду 44-ФЗ, на время военных действий я много что могу сказать.

Особенность системы госзакупок в России в том что в одних и тех же законах открытость была смешана с процедурным контролем. В одном и том же 44-ФЗ прописаны, как все полномочия о контроле, так и требования к открытости. При этом это явления разного порядка.

Введение и усиление контроля изначально в 94-ФЗ и в 44-ФЗ далее было сделано для усиления связки Минфин, Казначейство, ФАС. Мало кто вспоминает что ранее регионы и муниципалитеты осуществляли контроль самостоятельно, более того, эта модель куда более соответствовала Конституции РФ поскольку субъекты федерации и муниципалитеты самостоятельно должны управлять своими бюджетами. Но ещё даже в первых редакциях законов только некоторые чиновники в Правительстве Москвы сопротивлялись этим введениям, но недолго.

Из-за огромного дисбаланса процедурных требований, требований бюджетного кодекса, ограничений по согласованиям в рамках госпрограмм и нацпроектов, сложившаяся российская система госзаказа крайне громоздка и построена так что контролёры всегда могут найти нарушения. Более того любой госзаказчик который хочет обеспечить качество работ или товаров, должен действовать также как и коррупционный заказчик. Вначале искать поставщика какими-то другими методами, а потом искать возможность заключить контракт именно с ним. Это будет долго объяснять почему невозможно иначе, но все кто когда-либо выступал в роли поставщика или заказчика по 44-ФЗ знают о чём идёт речь.

Открытость этой системы была её единственным плюсом. Открытость давала если не эффективность, то хотя бы отчасти возможность предупреждать совсем уж запредельные случаи воровства. Хоть какой-то гражданский контроль был возможен только благодаря раскрытию информации о том кто является победителем по госконтрактам.

Поэтому приостановка закона или его отмена в будущем имеет две важные грани։
1. Для кого-то из госзаказчиков эффективность работы повысится просто потому что отпадёт процедурный контроль. После этого ФАС можно распускать, но в какой-то степени в каких-то областях эффективность процессов в государстве даже повысится. В основном там где речь идёт про стройку и крупные контракты. Но это предположение, не аксиома.
2. А вот снижение открытости приведёт неизбежно к тому что всё что связано с контрактами затрагивающими жизнь людей станет сильно хуже. Общественный контроль всегда был в этой области сильнее и тут он будет резко ограничен.

Условно "правильная" реформа госзаказа должна была быть в разделении непосредственно регулирования процедур закупок и исполнения контрактов в один закон и обеспечение открытости отдельным нормативным документом. В изменении самого смысла контроля от контроля процедур, к контролю результатов и ещё много чего связанного с мониторингом исполнения контрактов, а не только с финансовым контролем.

Поэтому, если коротко, закон менять надо, а вернее писать новый(-е), а вот ставить мораторий на открытость глупо, и ни к чему хорошему не приведёт. Разве что кроме того что добьют региональную журналистику, вслед за федеральной.

Но это всё уже очень далеко от данных и технологий про которые мне говорить и писать куда интереснее.

#opengov #procurement
В рубрике интересных наборов данных, небольшой, но полезный датасет проекта Caniuse [1] посвящённый тому какие веб-технологии поддерживают современные браузеры. Всего 530+ технологий и 19 браузеров из которых 6 настольных и 13 мобильных. Кроме того что информацию можно наглядно посмотреть на сайте или скачать в JSON формате.

Вообще это большая работа и один человек делает то что обычно делают исследовательские лаборатории в крупных компаниях или университетах.

Ссылки։
[1] https://caniuse.com/
[2] https://github.com/Fyrd/caniuse

#opendata #datasets #browsers #web
Я очень давно не писал на тему того как не надо публиковать данные хотя примеров таких было когда-то очень много. Я до сих пор помню как многие органы власти в России публиковали данные с расширением XML которые потом оказывались экспортированными файлами разметки презентаций или файлов MS Word. Эдакая симуляция машиночитаемости.

Но часто публикация материалов - это не только вопрос машиночитаемости, данные могут быть в Excel, и даже текстовые документы бывают редкостью когда вместо них публикуют сканы.

Сегодня на сцене чиновники Департамента городского имущества города Москвы публикующие таблицы с данными о приватизированных помещениях запихивая протоколы внутрь файлов Excel [2]. Причём файлы в формате PDF, просто перетащенные в Excel и открываемые только через Excel, только если установлен именно Adobe Acrobat Reader. Потому что открывается через внедрённый OLE Object (те кто не знает, не заморачивайтесь, в данном случае это просто Windows специфичный способ запуска документов)

Я, честно говоря, более всего в недоумении как я сам раньше не додумался о таком прекрасном, в кавычках, способе выполнять разного рода требования по раскрытию информации.

MS Office позволяет устраивать хранение данных объектов до любой глубины.
А значит можно как в сказке про кощея утка в зайце, яйцо в утке, игла в яйце. Вот точно также можно хоть градостроительные планы прятать гигабайтного размера։
1. Работать с этим будет крайне неудобно
2. Поисковики умеющие индексировать файлы MS Office не углубляются во вложенные объекты
3. При этом все законы и требования о раскрытии тех или иных сведений такие случаи не покрывают. Формально требования все соблюдены.

От этого спасает, опять же, в кавычках, только то что чаще когда каким-либо официальным лицам не хочется чтобы граждане или бизнес работали с теми или иными документами, то они просто публикуют сканы, в особенности кривоватые.

Ссылки։
[1] https://www.mos.ru/dgi/documents/view/233957220/

#opendata #idiotseverythere #data #moscow #government
Элон Маск, по видимому, решил всё же разрушить экосистему Twitter'а и теперь Twitter API только за деньги [1]. Это повлияет на то что от соцсети отключаться очень многие сервисы, продукты и инструменты. Например, ранее Twitter был одной из самых лояльных к архивации социальных сетей и было несколько хороших инструментов по архивации контента. Теперь, похоже, как и Facebook, Instagram и другие в Twitter'е начнут ловить и блокировать разного рода ухищрения работать с их контентом через неофициальные API.

Не знаю из какой парадигмы в новой команде Twitter՛а исходили в этом решении, считали ли они бесплатных пользователей API нахлебниками, или просто то что надо монетизироваться любой ценой. К тому же есть примеры соц сетей вроде Facebook'а которая всегда была закрытой. Но по модели использования Twitter не Facebook и не Instagram. Его реально можно заменить на Mastodon, пусть и с неудобствами.

Ссылки։
[1] https://twitter.com/TwitterDev/status/1621026986784337922

#API #twitter #socialnetworks
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.


Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable

#opensource #data #startups #moderndatastack
В рубрике как это устроено у них. В Турции нет единого национального портала открытых данных, однако есть много государственных систем и региональных порталов где они публикуются.

Наиболее полный их список собран в Open data index of Turkey [1] репозитории на Github. Там перечислены ключевые национальные, региональные и частные инициативы, такие как։
- Data portal for statistics [2] портал данных статистической службы с возможностью выгрузки всех данных в машиночитаемой форме.
- IMM Open Data Portal [3] - портал открытых данных Стамбула, классический портал открытых данных на базе CKAN с 286 наборами данных
- Izmir Acik Veri Portali [4] портал открытых данных города Измир, 32 организации, 180 наборов данных
- Konya Acik Veri Portali [5] портал открытых данных города Konya, 16 организаций, 115 наборов данных

Кроме того в Турции довольно много открытых геоинформационных систем на базе ArcGIS данные откуда тоже доступны, хотя формально открытыми данными не являются.

Турецкий опыт нельзя рассматривать как пример именно продвинутого опубликования данных. Ничего нет про данные для ИИ, всё довольно слабо в части предоставления открытых API, нет национального портала открытых данных, но для понимания того как развивается открытость государства в других странах.

Турция вступала в Open Government Partnership в 2012 году, а в 2017 окончательно вышла из организации [6]. Но, практически все активности по открытости данных начались уже ближе к 2020 году. Без наличия национальных планов по открытости, а на уровне муниципальных инициатив.

Ссылки:
[1] https://github.com/evrifaessa/open-data-turkey
[2] https://data.tuik.gov.tr/
[3] https://data.ibb.gov.tr
[4] https://acikveri.bizizmir.com/
[5] https://acikveri.konya.bel.tr/
[6] https://www.opengovpartnership.org/turkey-withdrawn/

#opendata #turkey #opengov