Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un
В ТАСС вышло интервью Сергея Собянина где, в том числе, о том что данные пропусков и социального мониторинга будут удалены [1].
Напрашиваются только два вопроса:
1. Почему с таким значительным запозданием? Можно было это сказать/пообещать с самого начала
2. Когда будет принят нормативно-правовой документ регламентирующий процедуру уничтожения данных и вывода систем из эксплуатации которые данные собирают?

Я ещё раз хочу сделать акцент что обещания политиков не закреплённые в нормативно-правовой базе имеют очень небольшие шансы на то что они будут исполнены.

P.S. Я в будущем постараюсь писать по этой теме поменьше, чтобы было больше писать про другие темы. Честно говоря про "качество" работы московских властей писать можно бесконечно, потому что я есть явные провалы и коммуникационные, и технические и этические. А самое главное глубокое непонимание что перенимать корейские или китайские инструменты воздействия на общество в России некорректно из-за значительно меньшего доверия граждан к государству чем в этих странах.

Ссылки:
[1] https://tass.ru/interviews/8641165

#covid19 #privacy #moscow
Slack, сервис корпоративных сообщений вступил в долгосрочное партнерство с Amazon [1] и будет улучшать свои возможности голосовой и видеосвязи с помощью Amazon Chime [2]. В первую очередь это связано с конкуренцией с Microsoft Teams.

На фоне этого всего у меня самый назревший вопрос - это почему Павел Дуров в Telegram до сих пор был занято исключительно массово потребительским продуктом. При наличии партнёрства или приобретения технологий на базе Telegram получился бы почти идеальный корпоративный мессенжер, механизмы его интеграции лишь немного уступают Slack'у (а может и превосходят) и это то за что компании реально были бы готовы платить.

При наличии у телеграма нормальной структуры управления, публичного юр. лица и так далее, конечно же.

Ссылки:
[1] https://www.theverge.com/2020/6/4/21280829/slack-amazon-aws-partnership-amazon-chime-voice-video-calls
[2] https://aws.amazon.com/ru/chime/

#messengers #slack #amazon #telegram
У меня на руках есть предварительные результаты анализа списка СОНКО который Минэкономразвития опубликовал 5 июня [1]

Это важный и нужный реестр, например, нам для проекта Открытые НКО [2] или для анализа госзакупок и субсидий для СОНКО в таких проектах как Госрасходы [3]

Если коротко, всё плохо, ошибки в наименованиях организаций, реквизитах, коды ИНН и ОГРН не проходят валидацию, числу ошибок даже хуже чем в реестром системообразующих предприятий поскольку сейчас ошибок много больше.

Я пока результаты анализа публиковать не буду, вдруг в Минэкономразвития захотят сами его проверить и исправить, до среды скажем.

В принципе, я вижу в этом даже пользу, мне нужны живые примеры по качеству данных, я на основе них сделаю учебный материал того как не надо делать;)

Ссылки:

[1] http://nko.economy.gov.ru/Public/NewsPage/Details.html
[2] http://openngo.ru
[3] http://clearspending.ru

#data #opendata #dataquality
В качестве обзора проектов основанных или основывающих среду работы с данными, система NARCIS (Нарцис/Наркис) в Нидерландах [1] существует с 2004 года и объединяет данные практически всех исследовательских центров страны.

Система изначально создавалась как система доступа к научным публикациям, сейчас является системой доступа к данным по результатам исследований.

Основная задача NARCIS - в предоставления доступа к исследованиям, данным по их результатам.

В экосистеме данных в Нидерландах, она обеспечивает возможности поиска и доступа, а вся экосистема состоит из 3-х основных сервисов:
- DataverseNL - публикация данных исследований
- EASY - сервис архивации исследований по их итогам
- NARCIS - поиск и доступ к данным в разрозненных репозиториях

В системе сейчас:
- 2 925 организаций
- 66 173 исследователей
- 71 750 научных исследований
- 266 947 наборов данных
- 2 097 121 публикаций

Проект является продуктом DANS (data archival and networked services) [2], они же создавали около 20 проектов по публикации научных данных в Евросоюзе [3].

Ссылки:
[1] https://www.narcis.nl/?Language=en
[2] https://dans.knaw.nl/en
[3] https://dans.knaw.nl/en/projects

#data #science #opendata
Государственная система или реестр без контроля качества данных - это помойка замедленного действия (с)

В который раз слушая сегодня о том как государство выделяет средства на очередную ФГИС, иную ИТ систему, реестр _чего-то там нового_, я не могу не отметить что без нормальной ИТ архитектуры всё это - это преумножение цифрового мусора.

Кроме тех историй о которых много лет, и я, и мои коллеги пишем, про качество данных в Минюсте или в Минэке, не стоит думать что во многих органах ситуация получше.
Вот лишь несколько примеров:
1. Минпросвещения публикует реестры по разным темам (12 файлов за 2 года) в виде PDF сканов и, реже, файлов MS Word. Только с названиями организаций и их адресами, без какой-либо дополнительной идентифицирующей информации.
2. Примерно у 5% организаций на портале ТрудВсем (trudvsem.ru) приведены недостоверные реквизиты в виде кодов ОГРН и ИНН.
3. Более чем у 500 организаций на портале госуслуг Gosuslugi.ru приведены неверные коды ИНН/ОГРН и у неизвестного (но значительного) числа организаций неверные или устаревшие контакты. Неверные реквизиты, в том числе у ФОИВ, например, Росводресурсов
4. Реестр аккредитованных ИТ компаний публикуется так что в поле ОГРН может быть как ОГРН организации, так и ОГРН включая текст о старом коде в случае реорганизации организации. В результате автоматическая загрузка в любую информационную систему потребует ручной/полуручной обработки. И да, около 100 организаций там просто внесены с неверными реквизитами. Интересно как они получают свои льготы?
5. Та же Минцифра не обновляет раздел Открытые данные уже почти 4 года. А какие-либо данные из их ГИСов вообще никогда не публиковались, даже статистика.
6. Похожие проблемы с данными Росздравнадзора и вообще всеми ведомствами.

Это всё помимо, уже привычных проблем, с элементарной доступностью данных которые должны быть доступны.

Главная беда в том что если процесс ведения той или иной базы выстроен неверно изначально, то исправлять это потом очень болезненно.

При этом, я большого секрета не открою, сделать типовое open source ПО для ведения практически любого реестра - несложно. Если реестр "плоский" то даже элементарно, но и даже если к нему привязано несколько понятий (документы, записи, понятия), то и в этом случае - очень просто. Казалось бы, всё это реестростроение, это вторая по популярности деятельность в госаппарате после нормопорождения, но нет, ничего подобного не существует.

Казалось бы такая нужна штука, так почему нет рыночных решений по ведению реестров?

Ситуация, во многом, от:
а) Недостаточной квалификации тех кто за ведение реестров отвечает (до сих пор руководители не понимают что это ИТ задачи).
б) Отсутствия внутренней планки качества во многих организациях.

Публиковать те или иные данные в режиме "и так сойдёт" очень сильно отличается от публиковать в режиме "мы не справляемся, у нас проблемы, помогите нам исправить".
Если первое это от недостатка культуры работы с информацией (к счастью это меняется), то второе это от уважения к аудитории. Этим похвастаться, увы, могут не все(

Ну а самое главное в том что главная причина в низком качестве, не только в государстве, но и в частных компаниях, возникает когда они собираются, но не используются.
Если нет системы поддержки принятия решений, то о качестве данных даже не вспоминают. Если данные портала ТрудВсем никому не нужны, то конечно там будут сплошные ошибки.
Если Минцифра не публикует открытые данные с портала Госуслуг, то конечно там будут ошибки.

Предполагать что данные которые не публикуют "в хорошем качестве и доступны только своим" - это также большое заблуждение. Реальность хуже, реальность прозаичнее.

#data #government
Спасибо Ксении Бабихиной и её коллегам из из Фонд Нужна помощь за их справку [1] по качеству данных в реестре социально ориентированных НКО опубликованном Минэкономразвития 5 июня.

Коллеги использовали наше API проекта "Открытые НКО" [2] которое создавалось какое-то время назад в КГИ, в начале 2020 года было передано и сейчас поддерживается командой Информационной культуры.

Мы используем данные о НКО в разных проектах. В общественных вроде Открытых НКО и в государственных таких как Госрасходы [3] и наша команда также отправила коллегам в Минэкономразвития результаты нашего предварительного анализа который где-то процентов на 70% пересекается с анализом проведённым Ксенией.

Очень хорошо что разные команды делают одно общее дело. Мне нравится в проекте "Если быть точным" [4] Фонда что они занимаются верификацией НКО, это важная и непростая работа и то что проверенные ими организации в реестре СО НКО не оказались, это не один, а сотни вопросов к работе Минэкономразвития.

Ссылки:
[1] https://drive.google.com/file/d/1EWRyzxgBpSqx3v9u82_KMM3HNB8-QZlM/view
[2] https://openngo.ru
[3] https://spending.gov.ru
[4] https://tochno.st/nko

#openngo #ngo #opendata #data
IBM отказались в будущем разрабатывать технологии распознавания по лицам, об этом в письме руководителя IBM Арвинда Кришна в адрес Сената США [1] . The Verge подробно разобрали ситуацию с применением [2] технологий распознавания лиц и, в том числе, "расовым предубеждением алгоритмов" и злоупотребление полиции использования этой технологии.

Тема слежки полиции за гражданами сейчас будет одной из важнейших в США точно. 12 июня, завтра выходит фильм "Запрограммированное предубеждение" (Coded Bias) [3] за авторством Joy Buolamwini которая когда и обнаружила и описала то что алгоритмы распознавания лиц плохо различают женщин и людей с темным цветом кожи.

На многое ли это повлияет в мире? Пока сложно предсказать. Этих шагов не возникло бы из-за стихийных митингов в США, обвинений полиции в использовании технологий и активизации НКО противодействующих неэтичному использованию ИИ, например, AI Justice United [4] и другие.


Ссылки:
[1] https://www.ibm.com/blogs/policy/facial-recognition-susset-racial-justice-reforms/
[2] https://www.theverge.com/2020/6/8/21284683/ibm-no-longer-general-purpose-facial-recognition-analysis-software
[3] https://www.hrwfilmfestivalstream.org/film/coded-bias/
[4] https://ajlunited.org/

#facialrecognition #ibm #bias #biometrics #ai
Кратко написал у себя в блоге о эталонных базах данных и золотых записях [1], кратко поскольку тема большая и многие случаи того как они создаются в государстве надо разбирать отдельно.

На самом деле из всех приводимых мной там примеров, по настоящему попытки эталонной базы данных предпринимались при создании реестра участников и неучастников бюджетного процесса и единый реестр населения. Это вот прям базы данных в которых сама логика их создания была в создании "золотой записи". Даже ЕГРЮЛ - это не совсем "золотые записи", а скорее справочные сведения.

Тема неисчерпаемая, есть большие области государства где эталонных данных нет в принципе.

Ссылки:
[1] https://begtin.tech/golden-record/

#data #mdm #goldenrecord #registry
Ну то есть в последний момент "реестр СО НКО" переименовали в реестр НКО наиболее пострадавших от коронавируса. И постановление правительства приняли, чтобы протащить эту новую мысль. [1]
Это не "нет слов, одни эмоции", а слова то есть.
Ну, хотя бы определен ответственный и требования к достоверности зафиксированы.
Это ж сколько обращений в прокуратуру можно написать, по каждой недостоверной записи буквально.
И вот эта часть:

3.Министерству экономического развития Российской Федерации:сформировать реестр;осуществлять методическое обеспечение деятельности федеральных органов исполнительной власти по подготовке и представлениюинформациио некоммерческих организациях, предусмотренной Положением, утвержденным настоящим постановлением, для включения в реестр; разместить реестр на официальном портале Министерства экономического развития Российской Федерациив информационно-телекоммуникационной сети "Интернет";

Давайте врать не будем, в Минэкономразвития некому осуществлять эту методическую работу.

Впрочем, я обо всём, очень подробно, ещё напишу

Ссылки:
[1] http://static.government.ru/media/files/JAZ9FWArAwVgNEjmFIkALqrPPb5FqPAD.pdf

#ngo #sonko #data
На Украине перезапустили законодательный портал страны при Верховной Раде zakon.rada.gov.ua [1], помимо того что он на 3-х языках: украинский, английский и русский [2], так ещё и все документы опубликованы под Creative Commons Attribution 4.0 International license, а все данные портала опубликованы на портале открытых данных Верховной Рады [3], включая всю базу украинского законодательства Нормативно-правова база України (База даних “Законодавство України”) [4]

На портале есть очень разумный раздел терминологии [5] привязанный к нормативно-правовым документам.

При том что я лично могу сказать что и система обеспечения законодательной деятельности Госдумы в России [6] не так уж плохо сделана, но открытых данных и некоторых других возможностей в ней давно не хватает.

Не рискну перехваливать украинских коллег, почти всегда люди знающие изнутри больше знают про проблемы и ограничения открытости на самом деле, но со стороны это выглядит как весьма неплохой портал прозрачности законодательной деятельности.

Ссылки:
[1] https://zakon.rada.gov.ua
[2] https://zakon.rada.gov.ua/laws?lang=ru
[3] https://data.rada.gov.ua/open
[4] https://data.rada.gov.ua/open/data/zak
[5] https://zakon.rada.gov.ua/laws/main/ru/termin
[6] https://sozd.duma.gov.ru

#opendata #ukraine #laws #data
Одна из наиболее сложных/трудоёмких задач в Data science - это подготовка и аннотирование данных. Компьютеры не начнут распознавать лица пока не будет базы лиц, пока не будет базы уличных объектов, "умные автомобили" не смогут распознавать их и так далее. Как правило работа по созданию таких наборов данных происходит вручную и она довольно дорогостоящая.

Стартап SuperAnnotate [1] умеет аннотировать наборы данных использую ИИ. У них это неплохо получается и 11 июня они привлекли финансирования на 3 миллиона USD. Это может показаться странным когда ИИ готовит данные для ИИ, но, на самом деле, это вполне ожидаемое развитие событий. ИИ не полностью, а лишь частично заменяет ручной труд, предоставляя подсказки и значительно ускоряя ручную работу.

Ссылки:
[1] https://www.superannotate.com/
[2] https://venturebeat.com/2020/06/11/superannotate-uses-ai-techniques-to-speed-up-data-labeling/

#data #datascience #labeling
Вы непопулярны в Instagram? Возможно Вы просто недостаточно обнажены

В современных социальных сетях не алгоритм подстраивается под Вас, а Вы под алгоритм. Европейская сеть дата-журналистов и Algorithm Watch провесли тестирование алгоритмов Instagram [1]. В тестировании участвовали 26 волонтеров и 37 профессионалов по созданию контента, были проанализированы 2400 фотографий.

Вывод из анализа - популярность и оголение тела оказались взаимосвязаны не только в головах тех кто смотрит, но и в алгоритмах Instagram. Чем больше в Ваших фотографиях обнажённого тела, тем больше вероятность что оно окажется в лентах других людей.
Подробнее в документе [2] исследования.
Ссылки:
[1] https://algorithmwatch.org/en/story/instagram-algorithm-nudity/
[2] https://docs.google.com/document/d/1L7A5hmskm3Y3huSXHNtIIoiVijHD3dkDqubff4Yvkg8/edit#

#instagram #ai #bias
Депутат партии Ямина, Матан Кахана, в Кнессете Израиля решил соблюсти шаббат и, одновременно, завалить рассмотрение спорного законопроекта поправками. Его помощник Лави Эйзенманн попросил своего отца Шамая Эйзенманна написать программу для генерации поправок. Тот с помощью Visual Basic и Excel сгенерировал 6000 поправок за 75 минут [1]

Закон всё равно приняли, но вопрос о том следует ли ограничивать законодательную активность депутатов в очередной раз стал весьма актуален.

Зато какой рынок для LegalTech, разработка инструментов по приведению в паралич законодательных собраний. И задача сложная, анализ естественного языка, генерация осмысленного текста, можно и искусственный интеллект применить.

Ссылки:

[1] https://www.jpost.com/israel-news/yamina-uses-computer-program-to-thousands-of-amendments-630758

#legaltech #israel #deputies #laws
Почему крупнейшие компании в США отказываются поставлять государству (полиции) технологии распознавания по лицам? Потому что опасаются массового бойкота их продукции со стороны потребителей.

Почему в России столь легко внедряются эти же технологии? Потому что бойкотировать некого. NTechLab - это, типа, небольшой стартап в связке с Ростехом, у него нет массового потребителя.

Но бойкот - это форма мирного протеста, когда он не возможен, то во что он выльется? К разработчикам "алгоритмов двойного назначения" приставят госохрану? До них и до внедряющих властей дойдет что любой пиар в этой теме работает против них?

Вопросы этики в ИТ - это давно уже вопросы не-нейтральности технологий. Понимают ли создатели алгоритмов последствия их применения?

#algorithms #facerecognition
Новость расстраивающая меня лично, это то что в США закрыли проект pulse.cio.gov, сервис мониторинга аналитики и сертификатов доменов в зоне .gov в США. Его код остался открытым [1], но в состоянии архивации. Функции перенесены в портал Digital Dashboard [2], с полностью закрытым функционалом и его кода нет в репозиториях 18F [3].

Конечно жаль, открытый код 18f в США и десятков официальных органов в мире всегда был хорошим примером того что можно было бы сделать в России. Но команда Трампа сменила команду Обамы, вопросы открытости медленно, но верно сходили на второй и на третий план, и здесь, также, открытого кода стало меньше.

Но, в остальном всё осталось по прежнему. Органы власти в США по прежнему лидируют по публикации открытого кода на Github [4], во многом за счёт огромного объёма кода публикуемого государственными исследовательскими центрами.

Ссылки:
[1] https://github.com/18F/pulse
[2] https://digitaldashboard.gov/
[3] https://github.com/18F
[4] https://government.github.com/

#opensource #opendata #opengov
9 женщин не могут родить ребёнка за 1 месяц, но 16 человек могут написать книгу за 5 дней.
Книга Open a GLAM Lab [1] была написана 16 членами сообщества International Open GLAM Labs Community 23-27 сентября 2019 года во время встречи в Катаре. Это сообщество которое сформировалось вокруг идеи открытости галерей, библиотек, архивов и музеев по всему миру. GLAM расшифровывается как Galleries, Libraries, Archives and Museums.

Его манифест можно прочитать на сайте OpenGLAM [2] и в инициативе фонда Викимедия по обновлению принципов и этой инициативы [3]

Open GLAM Labs - это инициатива 60 институтов культуры 30 стран [4], обсуждающих то как должны быть устроены современные лаборатории при учреждениях культуры. Фактически, как объединить исторически гуманитарные области знаний с технологиями и открытостью.

В книге немало хорошо описанных примеров культурных лабораторий по всему миру и рекомендаций по их открытию, включая ссылки на материалы объясняющие почему это важно. Например, Europeana Impact Playbook [5], а также о переосмыслении цифровых культурных коллекций как данных, о трансформации культурных учреждений (обратите внимание, не цифровой трансформации, а просто трансформации, в первую очередь культурной трансформации)

Для всех кто интересуется современными цифровыми архивами, библиотеками и музеями всячески рекомендую эту книгу и, конечно, пример её создания за 5 дней вдохновляет. Чего нехватает в российской движухе на мероприятиях, то что она почти вся игротехническая, "детский сад для взрослых". А вот такой пример пример создания книги - это хороший пример важного, полезного и востребованного продукта созданного совместными усилиями.

Написание книг за короткие сроки также называют книжными спринтами. У них есть методика [6] и большое сообщество в мире. Такого, конечно, очень нехватает в России. Если бы были те кто захотел бы такое профессионально организовывать в России, у них был бы немалый пул клиентов, как минимум, среди ИТ компаний.

А книга Open a GLAM Lab была написана как раз в одном из таких спринтов [7]

Может быть и нам организовывать такие спринты? Есть несколько больших тем о которых давно хочется написать и я уверен что получится собрать тех кто готов будет совместно создать новое знание совместными усилиями.

Ссылки:
[1] https://glamlabs.io/books/open-a-glam-lab/
[2] https://openglam.org/
[3] https://meta.wikimedia.org/wiki/Open_GLAM
[4] https://glamlabs.io
[5] https://pro.europeana.eu/page/impact
[6] https://www.booksprints.net/method/
[7] https://www.booksprints.net/book/a-book-sprint-for-the-glam-sector/

#openglam #glam #opendata #books
Вышла моя колонка в РБК по поводу реестра СО НКО [1] и его невысокого качества. Внимательный читатель найдёт все ответы и недосказанное внутри этого текста.

Я отдельно напомню также о том что я писал ранее в РБК о том как государство использует статус НКО для вывода деятельности из под 223-ФЗ и 44-ФЗ [2]

А также 2 мои заметки на Яндекс Дзен 2-х летней давности о том как устроен некоммерческий сектор [3] [4]

Если кратко, то конечно, всегда хочется надеяться что некоторые косяки некоторых реестров, таких как реестр СО НКО, это ошибки, а не коррупция, непрофессионализм, а не злой умысел.

Ссылки:
[1] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
[2] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
[3] https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/kak-ustroen-nekommercheskii-sektor-vrossii-chast-1-5a363ff08139ba06ba669bf7
[4] https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/kak-ustroen-nekommercheskii-sektor-v-rossii-chast-2-5a3a1e898139ba9e538c916b

#ngo #sonko
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Рейтинг конкурентности закупок по федеральным органам власти и регионам теперь доступен на сайте проекта «Госрасходы» ^_^.

Для составления рейтинга были проанализированы все закупки за 2014-2019 годы со снижением цены (НМЦК) закупки и количеством допущенных участников в трех диапазонах: 4-6, 7-9 и больше 10 участников.

Для каждого года, каждого региона и федерального органа власти, в каждом из перечисленных диапазонов рассчитывался процент конкурентных закупок по отношению к общему числу закупок. После этого оценкам был присвоен вес (чем больше участников закупок в диапазоне - тем больше вес) и рассчитан индекс конкурентности по годам и общий за шесть лет.

Индекс конкурентности составлен в двух параметрах: количественный параметр позволяет оценить количество конкурентных закупок, а стоимостной - суммы контрактов, заключенных по конкурентным закупкам.

Конечно, не обошлось без проблем со структурой и качеством данных: К сожалению, наиболее очевидный подход к сопоставлению контрактов с заявками невозможен, потому что в данных между протоколами и контрактами нет прямой связи, а только опосредованная, через извещения. Несмотря на наличие атрибута «реестровый номер контракта» это поле остается пустым. Но нашей опытной команде аналитиков это не помешало найти другой способ составления рейтинга.

С результатами по регионам и ФОИВ можно ознакомиться по ссылкам (и в случае с регионами «поиграть» с интерактивной плиточной картой и графиками):
[1] Федеральные органы власти: оценка конкурентности закупок
[2] Регионы России: оценка конкурентности закупок