Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive
The State of European Tech 2022 [1] большой обзор венчурного рынка в Евросоюзе от Atomico. Тем кто интересуется привлечением и раздачей инвестиций там много интересного, тем что следит за отраслями и регулированием тоже. Например, полезно будет узнать что большинство респондентов этого обзора из числа инвесторов негативно оценивают европейские законы о защите данных и приватности, а представители академических структур и наёмные работники позитивно. Это всё к тому что европейские регуляторы явно действуют в интересах электората, а не рынка.

Но в целом там ещё много интересного, особенно про различия в восприятии инвесторов и фаундеров компаний и том как фаундеры и инвесторы меняют стратегии в ситуации сжимания объёма доступных инвестиционных средств.

Ссылки:
[1] https://stateofeuropeantech.com/

#startups
Напоминаю что в пятницу будет проходить Privacy Day 2023, на сайте доступен перечень спикеров и программа. А само мероприятие будет транслироваться на Youtube.
Мероприятие ранее проходило ежегодно в Москве, теперь организаторы сделали его международным и проходящим полностью онлайн. Так что будет интересно всем для погружения в повестку приватности не только в России.

#events #privacy
В 1 февраля 2023 года должен начаться большой глобальный проект Open Global Data Citation Corpus [1]. Это большой корпус по данным научного цитирования включающий публикации с DOI и без DOI и реализуемый в партнерстве Wellcome Trust, Chan Zuckerberg Initiative и DataCite. А также я так понимаю что туда вовлечены участники из проектов EMBL-EBI, COKI, OpenAIRE, and OpenCitations․ Это может быть весьма большим и интересным набором данных поскольку до сих пор никто такую глобальную базу не собирал. Лично мне правда интересно почему не взяли за основу OpenCitations [2], а может как раз и взяли и просто ещё не рассказали нам об этом до анонса. Главным недостатком OpenCitations как раз и было то что их база охватывала только документы с DOI, которых много, но они не все.

Ссылки։
[1] https://blog.datacite.org/data-citation-corpus-announcement-2023/
[2] https://opencitations.net/

#opendata #datasets #openaccess #openscience
У ОЭСР вышла свежая публикация по теме регионального развития Using private sector geospatial data to inform policy [1] с обзором государственно-частных партнерств по созданию продуктов на основе геоданных поставляемых и государственной геоинфраструктуры и частных поставщиков и партнеров. Документ любопытный большим числом ссылок, форматов партнерства и конкретных рассмотренных примеров из Евросоюза, Южной Кореи, Индии, Канады и других стран.

Впрочем главное в документе это не только примеры, но и институциональная рамка таких партнерств, а это Data Partnership [2], а это сотрудничество между международными организациями и технологическими компаниями, способствующее эффективному и ответственному использованию данных третьих лиц в международном развитии.

Организованное под эгидой Мирового Банка и в партнерстве со всем крупным биг тех сектором и крупнейшими "игроками рынка" международного развития.

Я об этих партнерствах писал довольно мало, хотя это важное изменение с политике крупных межгосударственных структур и по масштабам оно гораздо больше чем политика работы с открытыми данными.

Однако, возвращаясь к конкретно этому документу, геоданные являются одним из наиболее приоритетных источников партнерств потому как органы власти слишком часто не обладают ресурсами условных Google или Meta по сбору данных о каждом жителе. А для бигтеха - это возможность иметь про запасы аргументы в разговорах с регуляторами почему они не такие плохие и что слежка за всеми оправдана.

Ссылки:
[1] https://www.oecd-ilibrary.org/urban-rural-and-regional-development/using-private-sector-geospatial-data-to-inform-policy_242f51b8-en
[2] https://datapartnership.org/

#data #regulation #policies #oecd #datapartnership
В рубрике как это работает у них, шведский портал данных о COVID-19 The Swedish COVID-19 & Pandemic Preparedness Data Portal [1]. Создан командой проекта SciLifeLab [2] который, в свою очередь, создан консорциумом 4-х государственных университетов, как проект по работе с данными о науках о жизни.

На сайте одновременно есть наборы данных, результаты исследований, публикации, научные статьи и информация о идущих исследованиях и их планировании. В итоге это не только геномные данные, но и все остальные данные связанные с пандемией прямо или косвенно.

Ссылки։
[1] https://covid19dataportal.se/
[2] https://www.scilifelab.se/

#opendata #covid19 #datasets
В Open Government Partnership опубликовали доклад Broken Links: Open Data to Advance Accountability and Combat Corruption [1] где на основе результатов Global Data Barometer подсветили практики открытости по всему миру, в первую очередь в странах входящих в OGP, на постсоветском пространстве - это Латвия, Литва, Эстония, Украина, Киргизия, Грузия, Армения и Азербайджан. В данном случае у них акцент на открытости и прозрачности в контексте борьбы с коррупцией и подотчетности власти. Обзор хорош конкретными примерами, вроде украинской системы системы закупок Prozorro, или Латвийского реестра лоббистов, или изменения в регулировании Армении с раскрытием бенефициаров в реестре владельцев компаний.

В российских реалиях обзор применим только с точки зрения понимания "как всё развивается у них", Россия не входит в OGP, а для многих постсоветских и не только стран увидеть пробелы в собственной открытости.

Ссылки։
[1] https://www.opengovpartnership.org/broken-links

#opendata #opengov
Разное полезное чтение про данные, технологии и не только։

- How Misused Terminology is Damaging the Data Field - заголовок слегка провокационный, а по сути там разбор того как связаны и пересекаются термины вроде Business Intelligence, Data engineering, Data science и другие. Ценность в наглядности

- Fivetran free plan - для тех кто не знает, Fivetran - это крупнейший облачный ETL сервис, популярный среди тех кто пользуется крупнейшими облачными хранилищами, не в России в общем, и в обновлении прайс-листа они обнародовали бесплатный тариф с ограничением до 500 тысяч строк. Конкуренция среди продуктов такого типа растёт, так что шаг больше похож на вынужденный

- Whalesync: Announcing Our $1.8M Pre-Seed Round - стартап в виде ETL для контента, упоминают кучу коннекторов и интеграцию с Webflow и Wordpress. Анонсируют раунд в $1.8M что, в целом, немного для этого рынка, с одной стороны, а с другой - это pre-seed раунд.

- A Major App Flaw Exposed the Data of Millions of Indian Students - разработчики государственного индийского приложения для дистанционного обучения, Diksha, держали большие объёмы персональных данных на открытом, незащищённом сервере в облаке Azure. Этот сервер нашли исследователи безопасности, неизвестно сколько успели найти и забрать хакеры.

- 2023 Edelman Trust Barometer Reveals Business is the Only Institution Viewed as Ethical and Competent; Emerges as Ethical Force for Good in a Polarized World - это довольно интересное явление, ежегодный индекс доверия граждан к разным общественным институтам, государству, СМИ, бизнесу и др. В 2023 году резко вырос уровень доверия бизнесу причём связывают это с исходом более чем 1000 зарубежных компаний из России. Там ещё много интересного, например, растущий кризис доверия к государству. В 16 из 28 стран уровень доверия госорганам ниже 51%

- Global Renewables Watch - проект по мониторингу установок на солнечной энергии и ветровых турбин, делается Microsoft, Planet и The Nature Conservancy. Пока в private beta, интересно что будет когда откроется.

#readings
Интересная свежая научная статья The Semantic Scholar Open Data Platform [1] как видно из названия посвящена Semantic Scholar [2], огромной базе данных научных статей и научного цитирования созданная и развиваемая Allen Institute for Artificial Intelligence.

Очень интересно для всех кто занимается наукометрией и, также, в статье много подробностей о том как проект устроен внутри, исходном коде отдельных компонентов и многое другое.

Ещё интересны цифры и сравнение с другими проектами. Крупнейшая база статей на сегодняшний день Aminer [3], с оговоркой что реальный объём базы Google Scholar неизвестен.

Интересно, кстати, что такие проекты - это проекты с большой частью дата-инженерии. И, хотя там нет сверхплотных потоков ежесекундных транзакций, но решаемые задачи весьма непросты как в части сбора, так и в части обогащения данных.

Ссылки։
[1] https://www.semanticscholar.org/reader/cb92a7f9d9dbcf9145e32fdfa0e70e2a6b828eb1
[2] https://www.semanticscholar.org
[3] https://aminer.org

#readings #articles #opendata #openscience #openaccess
Я тут уже какое-то время размышляю над тем чтобы начать и написать лонгрид о том "Что не так с российским ГосТехом?", но эти размышления не проходят важный фильтр "а нахрена?". Потому что, во первых, надо для этого интересоваться госинформатизацией в России больше чем я сейчас интересуюсь, во вторых, оно и так само помрёт, и в третьих, это как в грязи копаться, если уж разбирать эту историю во всех подробностях.

Единственный резон в том чтобы об этом писать тщательно и детально, это сравнивать с проектами в других странах под общей идеей того как делать не надо.

Поэтому я напишу только самое очевидное оставив полноценное исследование/расследование/анализ за рамками и я повторю пару тезисов о которых не раз писал ранее.

1. В госсекторе если система/продукт/инфраструктура не является жизненно необходимой, она гарантированно умирает. (с)

Да, можно придумать безумную хрень и влить в неё 100500 миллиардов бюджетных средств, да многие ГИСы дублируют друг друга, да ведомства российские и не только большие мастера в лоскутной информатизации, но... важно понимать что есть информационные системы которые создавались 10-15 лет, и они никуда не денутся не по той причине что они хорошо сделаны.

Поэтому чтобы там не происходило, портал Госуслуг будет жить долго, или портал госзакупок, или портал госторгов, или Электронный бюджет и ещё много что. Да, эти системы могут переделывать, объединять, и тд., но лишь путём довольно сложных операций. Опытные госинформатизаторы и группы интересантов как внутри компаний поставщиков так и их лоббистов знали и знают что главное - это то чтобы от закрытия финансирования твоей системы пострадали ключевые функции государства или конкретного ведомства. Я таких случаев знаю очень много, не про все лишь могу/имею право рассказывать.

ГосТех в России пытаются протаскивать именно как информационную систему. Не архитектурную доктрину, не огненную команду сверхлюдей, не идеологическую основу, не концепцию, и даже не как фундаментальную цифровую инфрраструктуру, а именно информационную систему. При этом критической она не является, какой бы пиар шум не создавался, нормативкой она полноценно не обвязана, на ней пытаются создавать какие-то новые сервисы/информационные системы ни одна из которых критической не является.

Что это означает? что в любой момент финансирование можно прикрыть, ФКУ ГосТех переименовать во что нибудь другое (оно и ГосТех то стало после переименования), команду всю распустить, а не-нормативку почистить за короткий срок. И ничего не случится (с). А это означает что если госаппарат может без этого прожить, значит при любом последующем секвестре бюджета это всё порежут.

2. Сначала люди потом системы

Все без исключения инициативы по инновациям в госсекторе которые я знаю в мире - это инвестиции в людей. Гостех в Сингапуре - это команда, GDS в Великобритании - это команда, 18F в США - это команда и так далее, таких команд много. Все эти команды набирались по модели сбора топовых разработчиков для разработки открытого кода, дебюрократизации, работы в роли пожарных команд и других альтернатив классическим отношениям в госсекторе։ заказчик-подрядчик. Продукты созданные этими командами имеют ценность, но именно как капитализация ценности этих команд для государства.
Так вот Гостех в России такой командой не является. Это некая закрытая группа без заметных публичных результатов кода, документов, гайдов, системных подходов и всего остального. В текущей модели существования - они прослойка между госорганами и платформой Сбербанка (читай - Сбербанком) и являются "приложением к единой цифровой платформе". Иначе говоря, по модели реализации Гостеха в России, люди вторичны, информационная система первична. А что касается информационной системы см. пункт 1. Гайд по Agile сделанный командой ГосТех՛а - это ещё раз подтверждает. Это обезличенный забюократизированный документ с заложенными минами привязки к ЕЦП Гостех и при этом оторванный от реальности госпроектов ограниченных законами о госзакупках, госслужбе и практике согласования с Минцифрой, планами информатизации и последующими проверками прокуратуры и Счетной палаты. Кто-то скажет что, "но иначе же невозможно!". Возможно, и как раз большая часть инновационных команд в мире специализировались на том чтобы это было возможно.

Инвестиции в людей и сбор сильных команд в госсекторе не является простой задачей, в мире тоже не так много примеров, но они есть. в России они мне почти неизвестны, а там где они есть присутствует очень сильная отраслевая специфика.

Выводы можете сделать самостоятельно.


#govtech #russia #government #thoughts
Любопытный стандарт публикации продуктов на данных Open Data Product Specification [1] специально для тех компаний и не только компаний которые торгуют данными. Да, да, это не [Open Data] Product specification, а именно [Open] Data Product Specification. Слово Open тут про открытость стандарта, а не про открытые данные.

Что, впрочем, не делает стандарт менее любопытным. Идея любопытная как альтернатива спецификациям общедоступных данных для повышения находимости именно коммерческих данных. Хорошо бы дополнило стандарт Schema.org.


Ссылки։
[1] https://opendataproducts.org

#opendata #data #specifications #
В рубрике интересных проектов на данных, общественный проект OpenAQ (Open Air Quality) посвящённый, как вы догадались, качеству воздуха и инструментам его измерения. Они обновили свой навигатор по датчикам, теперь можно увидеть [1] их во многих странах, особенно в Евросоюзе и США. А также много датчиков в Чили, Австралии и в Таиланде.

Проект любопытный, с открытыми данными, интерфейсами для разработчиков и тд.

Ссылки:
[1] https://explore.openaq.org/

#opendata #datasets #API #airquality #lifequality
Как продвигать открытость органов власти и международных структур финансируемых за счет общественных средств? Публичными кампаниями. Например, есть такое Международное энергетическое агентство (IEA) которое финансируется взносами стран участников, собирает от них данные, но предоставляет их только за деньги [1].

Активисты запустили сайт Free IEA Data [2] ещё год назад и тогда же был большой текст объясняющий зачем это нужно [3]. Если кратко, то это сейчас единственный источник подробных и выверенных данных по энергопроизводству и энергопотреблению, охватывающий почти весь мир.

Лично я подозреваю что недоступность этих данных как открытых вызвана не только жадностью, но и тем что ряд стран не хотят делать общедоступными их данные и могут перестать передавать их IEA в случае полной открытости.

Но я лично согласен что такие данные должны быть общедоступны и общественные кампании - это одна из форм воздействия на лиц принимающих решения в пользу открытости этих данных.

Ссылки:
[1] https://www.iea.org/data-and-statistics
[2] https://free-iea-data.com/
[3] https://ourworldindata.org/iea-open-data

#opendata #energy
Dataskop [1] свежее приложение от команды AlgorithWatch по сбору и визуализации данных которые собирает о пользователе ТикТок и с возможностью пожертвовать эти свои данные на исследования в области приватности. Сама идея интересная, делать приложения по анализу приватности в виде приложения с браузером внутри. Вместо того чтобы делать расширение для браузера, согласовывать его с владельцем магазина расширений, проще поместить Chromium в оболочку и делать исследование в замкнутом пространстве. Хорошая идея, тянет на возможность её универсальной реализации, не только применительно к ТикТоку.

А пока можно скачать приложение и поэкспериментировать. Я вот, к сожалению, проверить не могу, ТикТоком совсем не пользуюсь.

Ссылки:
[1] https://dataskop.net/overview-in-english/

#privacy #software #tiktok