Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Пишут что у Сбера появился свой аналог ChatGPT к которому, правда, доступ только по приглашениям. Я его не видел, зато не могу не вспомнить про проект AIID AI Incident Database [1] база из более чем 500 "инцидентов" произошедших с AI. Например, когда машина под управлением AI сбивает пешехода или когда рекомендательный алгоритм с использованием ИИ рекомендует совсем не то и тд. Судя по описаниям некоторых инцидентов, там объектом рассмотрения являются не только ИИ системы, но и нейросети и другие результаты машинного обучения. Я бы скорее говорил что там речь про ADM системы (ADM - automated decision making), но авторы используют термин AI.

И да, данные из этой базы можно скачать одним архивом в машиночитаемой форме [2]

Ссылки:
[1] https://incidentdatabase.ai/
[2] https://incidentdatabase.ai/research/snapshots/

#ai #ethics #incidents #datasets
Команда российского Гостех'а в своём телеграм канале пишет поёт себе хвалу [1] о том что Россия признана одним из лидеров гостехизации в рейтиге GTMI (GovTech Maturity Index), но как бы помягче сказать. Библейскими словами - это лукавство.

Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].

Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.

Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.

Ссылки:
[1] https://publielectoral.lat/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe

#government #govtech #worldbank #technology
WBG_GovTech Dataset_Mar2023.xlsx
5 MB
Вдогонку к тому о чём я только что писал про Гостех, таблица с данными по всем странам которые оценивали в рамках индекса GMTI. Там все первичные данные, ссылки на законы, госполитику и тд. Заодно можно увидеть что эксперты Всемирного банка чаще всего сомнительные случаи трактуют в пользу страны и там есть какое-то количество устаревших пунктов, вроде того что в России ещё есть национальный портал открытых данных, тем не менее полезно посмотреть для того чтобы посмотреть на основе чего формируются оценки и из чего складываются оценки других стран.

#govtech #ratings #datasets
Сколько вообще в мире порталов с общедоступными данными? Я всё пополняю реестр каталогов данных в рамках Common Data Index [1] и статистики всё больше, понимание что ещё много осталось неохваченного тоже, но тем не мене.

Итак:
- 1508 внесенных каталогов данных и 497 найденных и ещё не систематизированных. Вместе около 2005
- 450 порталов на базе CKAN, самое популярное решение для порталов с открытыми данными
- 208 порталов Geonetwork, самый популярный каталог геоданных в мире. Не всегда там сами данные, иногда только метаданные. Размеры каталогов варьируются от 2 до 500 тысяч датасетов
- 178 порталов на базе облачного сервиса ArcGIS Hub. Это геосервис от ArcGIS позиционируемый как SaaS портал открытых данных
- 169 порталов на базе Geoserver, как правило не видных снаружи, но очень активно используемых
- 103 каталога научных данных на базе Dataverse
- 78 порталов на базе коммерческого продукта OpenDataSoft
- 63 портала на базе коммерческого продукта Socrata
- 58 порталов Geonode, упрощённого каталога геоданных. Он проще чем Geonetwork, но уже содержит ряд методанных о слоях
- 52 портала на базе опенсорсного каталога микроданных NADA
- 44 инсталляции ПО DKAN, аналог CKAN написанный на PHP и Drupal. Опенсорсный продукт
- 33 инсталляции PxWeb, ПО для публикации статистических индикаторов
- 21 научный портал данных на базе облачного сервиса Figshare

и не менее 247 порталов работающих на собственных разработках. Про Россию однозначно можно говорить про бесконечное изобретение велосипедов, типовое ПО используется крайне редко, международные стандарты метаданных почти не поддерживаются. Это касается и открытых данных и геоданных.

По числу порталов открытых данных и геокаталогов примерно поровну. По числу наборов данных геоданных многократно больше. По объёмам, наибольшего размера научные данные.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datasets #data #commondataindex
Я, кстати, зачитался просто оценкой России по GMTI, она есть в файле который я ранее постил [1]. Открываете вкладку Metadata, выбираете страну Russia и смотрите оценки по каждому пункту. А там столько интересного что я даже не знаю, заполняли ли это эксперты на зарплате у Российского пр-ва или просто не знающие что тут реально происходило и происходит.

Итак, по пунктам:
- I-33.1 - знаете какая основная структура отвечает за Гостех в России? Можно пару попыток. Нет, не угадали. Это Агентство стратегических инициатив https://asi.ru 😐.
- I-34.6 - оказывается в России есть документ определяющий Data Governance strategy / policy. А знаете куда ведёт ссылка? В корень сайта аналитического центра при Пр-ве. 😱 Куда же они его спрятали там ?!
- I-35.1 - оказывается в России есть стратегия цифровой трансформации и это. трам-пара-рам - это Паспорт национальной программы «Цифровая экономика Российской Федерации». В файле ссылка приведена битая, но смысл не меняется. Те кто не читал этот паспорт, могут почитать тут [2]. Это не стратегия, это дорожная карта которые обычно пишут на основе стратегий, но стратегий нет. 😡
- I-37.4.1 - оказывается в России есть очень крутой закон о доступе к информации и он даже мониторится Росстатом [3] (вот этот пункт похож даже не на лукавство, а на чистый подлог, ничего такого нет по этой ссылке и мониторинг если и ведётся то в закрытом режиме и в АП РФ, а не Росстатом. Можно говорить что не ведётся). 😠

И так ещё десятки пунктов, у меня сейчас нет времени все их разбирать.

Но два тезиса я могу точно сформулировать.
1) Оценка России в индексе GMTI завышена и это на совести экспертов Всемирного банка которые её осуществляли. Если бы эта оценка хоть кого-то в мире волновала, то давно был бы скандал где индекс прополоскали бы в не-российских СМИ, но индекс не волнует никого кроме тех кто на него рукоблудит, например, пиарщиков Гостеха.
2) Там вообще нигде, никоим боком нет упоминания платформы Сбербанка которую называют в России Гостехом. Впрочем я об этом писал уже ранее.

Ссылки:
[1] https://publielectoral.lat/begtin/4835
[2] http://static.government.ru/media/files/urKHm0gTPPnzJlaKw3M5cNLo6gczMkPF.pdf
[3] https://rosstat.gov.ru/gosusligi1

#ratings #govtech #rant
Please open Telegram to view this post
VIEW IN TELEGRAM
Про сжатие данных и о том почему я регулярно пишу что Parquet - это реально значимый формат хранения и обмена данными, важнее довольно многих.

Я приведу в пример данные с которыми я лично работал в аналитических задачах. У меня есть выгрузка слепка данных из российского реестра юридических лиц ЕГРЮЛ в виде 11 миллионов записей в которых 12 полей-признаков места организации, её типа, кода окопф, оквэд, кладр, статус ликвидации и тд. Без названий и без идентификаторов, данные нужны только для аналитической работы и построения кубов и срезов для BI. В общеё сложности - это 4.07ГБ. Не очень много когда один файл и много когда таких файлов десятки. С файлом нужно иметь возможность работать, загружать в СУБД или библиотеку вроде Pandas. Как сжать эти данные?

Самое очевидное - это сжать классическими архиваторами и хранить так. Gzip даёт сжатие до 337 МБ это примерно 8.3%, альтернативный Gzip'у архиватор LZ4 для быстрого сжатия и разжатия даёт компрессию до 340МБ это тоже примерно 8.3%, а LMA-архивация с помощь. XZ даёт 136МБ это примерно 3%, но она работает значительно медленнее. Все архиваторы проверялись в режиме максимального сжатия (ключ -9).

Так вот, а если этот же CSV файл преобразовать в parquet формат со сжатием, то итоговый файл получается размером в 109МБ, это примерно 2.7% от оригинального и, при этом, с ним весьма удобно работать с инструментами вроде Pandas при том что скорость преобразования значительно быстрее чем сжатие с помощью xz, к примеру. Во многом, похоже, это происходит из-заавтоматической идентификации типов полей и их преобразования.

Причём даже если повторить используемый в parquet трюк с колоночным сжатием, так просто такой результат повторить непросто. Например, у меня есть код который из CSV файла создаёт пучёк одноколоночных CSV файлов сжатие которых по отдельности должно быть лучше чем сжатие оригинального файла. Сжатые одноколоночные файлы дают дополнительное сжатие. GZIP файлы таких файлов занимают 221 МБ вместо 337 МБ. Аналогично для lz4 и только для xz размер общий файлов увеличивается до 139 МБ.

Конечно никто такие одноколочные файлы не делает, это трюк из давнего прошлого, я привожу его исключительно как иллюстрацию. Речь о том что Parquet файл значительно меньше и практичнее в общим случаях.

Отдельная история про сжатие данных для долгосрочного хранения и для сохранения интеграции с унаследованными системами. Тем не менее, имея выбор формата для хранения данных - Parquet это хороший выбор.

Для того чтобы он стал отличным ему нехватает только некоторых опций работы стандартными инструментами. Чтобы его можно было открыть в Excel, в браузере, в чтобы были аналоги grep/cat/awk/sed или csvkit и ещё много разных других инструментов. Тем не менее и сейчас его уже можно использовать.

#dataengineering #data #compression #parquet
Я, кстати, ранее ругался что на портале открытых данных Казахстана [1] ничего не скачать не имея местного ИИ, данные были доступны только после регистрации, теперь скачивать данные можно без регистрации, наверное они меня читают;) Но и тут без подвоха не обошлось, скачивать можно только до 100 записей за раз. Это, конечно, совершенно "потрясающе" как можно было до такого додуматься. Настолько смешно, что даже не знаю что добавить. В общем, портал по прежнему не про открытые данные. А вот где у них открытые данные точно есть так это в Портале открытых пространственных данных Республики Казахстан [2]. Там взяли готовый продукт Geonode и опубликовали более 500 слоёв. Но ленятся бессовестно, не указывают условия использования данных, язык везде указан как английский, хотя названия слоёв на русском. Описания есть далеко не у всех наборов данных.

Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.

Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/

#opendata #data #opengov #kazakhstan
Хороший обзор по выбору баз данных в блоге ByteByteGo [1], но блог под платную подписку поэтому ещё один текст ещё 2021 года тоже про выбор базы данных.

К примерам продуктов из которых выбирать можно относится сдержанно и реальная жизнь шире, но как систематизированное описание очень хорошо.

Я же обращу внимание на NoSQL базы данных для документов наиболее известной из которых является MongoDB. Так вот выбор там, конечно, не только между базами данных своего типа, MongoDB, ArangoDB и тд. Чаще всего выбор между NoSQL и NewSQL. Например, недавно в разговоре для подготовки к одной из конференций речь зашла о том что будет использоваться в Common Data Index, реестре и поисковике по данным который я проектирую. Для меня по умолчанию - если объект хранения иерархичный документ то это MongoDB. Но для очень многих корпоративных дата инженеров - это Postgres, что тоже логично, там есть поддержка хранения JSON и некоторые функции.

За чем правда? Я скажу так, когда речь идёт о хранении от сотнях миллионов объектов по которым могут быть сложные запросы, то Postgres показывает себя лучше. Но если данных поменьше, то MongoDB вполне себе подходит.

Случаи разные, задачи разные. Главный недостаток MongoDB в том что там там многие ветки развития для Community Edition перекрыты тем что это продукт коммерческий и если в облачной версии есть поддержка GraphQL из коробки, то в бесплатной версии и не будет похоже. Но альтернатив не так много как кажется.

Ссылки:
[1] https://blog.bytebytego.com/p/understanding-database-types
[2] https://towardsdatascience.com/datastore-choices-sql-vs-nosql-database-ebec24d56106

#opensource #databases #dbengines #data #datatools
Данные по добыче нефти в России тоже йок, РБК пишет что Росстат перестал их публиковать в ежемесячной статистике по динамике промышленного производства [1]. С одной стороны не удивительно, с другой стороны зарубежные разведки и так имеют свои источники для этих данных, а с третьей стороны у меня есть очень простой вопрос.

А где собственно постановление российского правительства запрещающее публикацию этих данных? Их отсутствие - это внутреннее решение Росстата и внутренний документ (приказ) руководителя? Постановление Пр-ва? Или, по "лучшим" практикам регулирования во время ковида, можно всё закрыть даже не имея никаких оснований?

Важно не только что делается, но и как делается. Кстати, с момента закрытия раскрытия данных можно не верить никаким утверждениям российских чиновникам по продаже и отгрузке нефти, для рынков это дополнительный фактор в сторону неопределённости.

Вообще закрытие любых экономических данных и данных о качестве жизни настораживает куда больше чем плохие значения.


Ссылки:
[1] https://www.rbc.ru/economics/26/04/2023/64492a769a794789b8b0feec

#opendata #closeddata #russia #statistics
В рубрике как это работает у них, в Аргентине Министерством науки, технологий и инноваций создана Sistema Nacional de Repositorios Digitales (Национальная система цифровых репозиториев) [1] для которой ещё в 2015 году были разработаны требования по подключению репозиториев академических учреждений с довольно простыми правилами сводящимися к заполнению метаданных по стандарту Dublin Core, поддержки интерфейсов сбора данных и так далее [2]. На организацию этих репозиториев и их приведение к стандарту университеты получали дополнительное финансирование [3] на техническую работу и на обучение кадров.

Всего таким образом охвачено 44 репозитория включающие как научные статьи и результаты конференций, так и исследовательские данные. Для исследовательских данных у них же создана отдельная система DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina [4]

Это во многом похоже на программы Европейского Союза, я приводил в пример появление репозиториев данных в Польше в Варшавском университете [5].

Ссылки:
[1] https://repositoriosdigitales.mincyt.gob.ar/vufind/
[2] https://repositoriosdigitales.mincyt.gob.ar/files/Directrices_SNRD_2015.pdf
[3] https://repositoriosdigitales.mincyt.gob.ar/vufind/Content/financiamiento
[4] https://dacytar.mincyt.gob.ar
[5] https://publielectoral.lat/begtin/4759

#opendata #openaccess #openscience #data
С чем у Минцифры РФ хорошо, так это с самокритикой. Они тут составили подборку телеграм каналов, критично настроенных, в том числе, к их работе. Это не значит что я лично стану менее или более критично писать в их адрес.

Для свежеподписавшихся напомню что я в этом телеграм канале пишу открытые данные, инженерию данных, технологии в государстве, технологии в принципе, приватность, ИИ (взглядом через данные), цифровое сохранение, о том где находить данные, с помощью каких инструментов с ними работать.

Пишу я не только и не столько в контексте России, но и про другие страны.

На русском языке я также веду рассылку с лонгридами, а на английском языке блог в Medium

Телеграм канал я изначально вел и во многом веду как свод регулярных заметок о том что читаю, над чем работаю, о чём пишу и тд. поэтому все ппосты здесь в телеграм канале снабжены тегами облегчающими навигацию.

#blogging #telegram
Ещё один любопытный open source продукт Evidence [1] на сей раз для изменения подхода к Business Intelligence. Вместо того чтобы делать графики и сопровождающий текст к каком-либо веб интерфейсе, подход BI-as-a-code, а то есть ты пишешь код в Markdown и он преобразуется в текст и графики.

Причём всё это в маркдауне описывается как код графиков и SQL запросы. Запросы движок умеет делать ко всем популярным SQL движкам и CSV файлам.

В основе всё та же бизнес модель: открытый код для локальной работы и облачный сервис за деньги.

Мне нравится сама идея, Markdown кажется вполне подходящей основой для такого продукта и, учитывая что сам продукт под MIT лицензией, я бы не удивился что кто-то из BI игроков и рядом с ним может захотеть к своему продукту такое добавить.

Плюс это очень удобная штука для команд с инхаус разработкой, когда надо приделать аналитику с визуализацией для себя, а времени и желания на внедрение BI продукта нет.

Ссылки:
[1] https://evidence.dev

#opensource #dataviz #bi #startups
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.

GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов

BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.

CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.

Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]

И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.

Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/

#opendata #openaccess #openscience #datacatalogs #dataportals
В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.

Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов

Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании

В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.

Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl

#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
Palantir Tech опубликовали видео с применением больших языковых моделей (ИИ) в их продуктах для разведки и военных [1]. Выглядит одновременно впечатляюще и пугающе, даже при всех их многочисленных оговорках про этические ограничения.

В каком-то смысле военное применение ИИ было всегда неизбежным и Palantir не единственные кто делал и делает продукты в этом направлении, но несомненно OpenAI с их GPT-3, ChatGPT и GPT-4 подтолкнули все индустрии в этом направлении.

Тут конечно важно не забывать что Palantir - это публичная компания с серьёзным падением стоимости акций за последнюю пару лет, так что насколько их продукты уже реально включают ИИ или же это больше рассчитано на инвесторов - пока непонятно.

Ссылки:
[1] https://www.youtube.com/watch?v=XEM5qz__HOU

#ai #aiethics #palantir
Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.

‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.

Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.

Ссылки:
[1] https://publielectoral.lat/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html

#ai #readings #technology