Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Много лет назад, когда я мониторил расходы государства больше времени чем сейчас занимаюсь работой с данными я много раз сталкивался с тем как государственные органы и государственные структуры тратили ресурсы на контентные проекты и на контентное наполнение официальных и не очень сайтов.

Если кратко, то в большинстве случаев эти расходы были большой ошибкой. Вообще госрасходы в создание контента это плохая стратегия, обычно свидетельствующая что, либо некуда девать деньги, либо одно из двух.

Вот несколько примеров.
- anticartel.ru - был создан ФАС России не позднее 2010 года, прекратил работу в 2018 году. Был просветительским сайтом по картелям и антикартельной политике. Контент только изнутри самого ФАС, содержание было довольно, скажу так, скучным. Уже 2 года как не действует. Контента от пользователей там не было, просто просветительский проект.
- takzdorovo.ru - проект Минздрава в России на который в разные годы министерство контрактовалось от 20 до 60 миллионов в год. Лично у меня до сих пор есть сомнения настолько ли он востребован гражданами и нельзя ли было потратить лучшим образом на пропаганду здорового образа жизни субсидиями СМИ. Здесь, казалось бы, контент от пользователей должен был быть, но он не взлетел.
- gosbook.ru - когда-то неплохая идея с блогами чиновников/окологосударственных экспертов и тд. Какое-то время он жил, но довольно быстро выродился в поток новостей, а поддержание движухи с контентом от пользователей не пошло.
- regionalochka.ru - соцсеть для чиновников, тоже вокруг контента от пользователей. Появилась чуть более 10 лет назад и несколько лет просуществовала после чего исчезла.
- digital.ac.gov.ru - портал нацпрограммы "Цифровая экономика" на сайте АЦ при правительстве. По началу пытались создавать контент, я им даже писал колонку. А сейчас это поток репостов (даже не рерайт) новостей с сайта правительства и АЦ

Я не буду упоминать сейчас десятки других _контентных_ госпроектов за эти годы, среди них более устойчивыми были те что создавались под крупными госмедиахолдингами вроде РИА и ТАСС, которые просто перенаправляли туда часть своего медиа-потока и менее устойчивыми были те в который стоимость единицы текста была значительно выше.

К чему я это всё веду. Если к примеру АНО ЦЭ создаёт контентный медиа проект на деньги своих учредителей (не государства), то это ещё можно классифицировать как специальный подвид корпоративных медиа.

А вот 58 тысяч терминов которые и 13.5 тысяч тегов в отраслевых словарях которые ОАО "Большая российская энциклопедия" должны внести в интерактивный энциклопедический портал к декабрю 2020 года на который они получили субсидию 13520P0S000 в 684 млн. рублей - это главная интрига уходящего года. Больше неё - только то сколько будет посетителей у этого портала.

#content #government
Подборка разного о государственных информационных ресурсах и базах данных о которых Вы можете не знать:
- ФМБА России публикует данные по санитарно-эпидемиологической обстановке на сайтах своих межрегиональных управлений с детализацией до муниципалитетов (городов и поселков). Пример: МРУ N 156 [1]. Один минус - данные все неструктурированные

- Минздрав России имеет свой сервис API на базе данных адресов ФИАС и это API общедоступно и документировано [2]

- у ФФОМС и Минздрава России есть порталы НСИ [3] [4] где можно скачать в машиночитаемом виде их справочники

- а общероссийские справочники можно скачать из системы справочников Санкт-Петербурга [5]

- у сайта Мэрии Москвы есть большое недокументированное API по большинству опубликованных там объектов. Например, по организациям на портале [6]

- ФМБА публикует регулярные сводки по забоеваемости COVID-19 на их территориях. По ссылке [7] можно менять последние цифры в названии файла "приложение к сайту 01.10.pdf" от 01.10 (1 октября) до 09.11 (9 ноября) все файлы имеют одинаковые префиксы. На самом сайте ссылок на архивные данные нет [8]. Это пока единственные данные с муниципальной детализации в статистике по COVID-19, но охватывают они только закрытые города РФ. Данные в pdf в табличной форме, легко переводятся в машиночитаемый вид.

- Информационный ресурс ФАИП [9] один из немногих ресурсов Минэкономразвития РФ где общедоступно публикуются результаты исполнения контрактов в рамках ФАИП. Вернее публиковались очень давно

- База данных «Стенограммы заседаний Государственной Думы» [10] включает стенограммы выступлений депутатов всех созывов. Может оказаться хорошей базой для обучения алгоритмов по самым разным текстовым задачам: измерения объёма лексики публичного человека, поиск негатива, позитива и ещё много чего. Данные неплохо размечены и относительно несложно превратить их в датасет.



Ссылки:
[1] https://mru156.fmba.gov.ru/deyatelnost/sanitarno-epidemiologicheskoe-sostoyanie/
[2] http://fias.egisz.rosminzdrav.ru/
[3] http://nsi.ffoms.ru
[4] https://nsi.rosminzdrav.ru/
[5] http://classif.gov.spb.ru/
[6] https://www.mos.ru/api/structure/v1/frontend/json/ru/institutions
[7] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BA%20%D1%81%D0%B0%D0%B8%CC%86%D1%82%D1%83%2001.10.pdf
[8] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/#fmba_rossii_operativnaya_informatsiya
[9] http://infrfaip.economy.gov.ru/
[10] http://transcript.duma.gov.ru/

#opendata #government #resources
Свежая подборка стратегических технологических трендов от Gartner [1]:
1. Internet of Behaviors
2. Total experience
3. Privacy-enhancing computation
4. Distributed cloud
5. Anywhere operations
6. Cybersecurity mesh
7. Intelligent composable business
8. AI engineering
9. Hyperautomation

Как ни странно, про данные там только 3-й тренд Privacy-enhancing computation, всё остальное связано с данными, но не данные в чистом виде.

Для тех кто мог подзабыть, для сравнения стратегические технологические тренды 2020 года [2]:
1. Hyperautomation
2. Multiexperience
3. Democratization
4. Human Augmentation
5. Transparency and Traceability
6. Empowered Edge
7. Distributed Cloud
8. Autonomous Things
9. Practical Blockchain
10. AI Security

Можно сказать что из стратегических трендов Gartner убран блокчейн и неизменными сохранились Hyperautomation и Distributed Cloud.

И, отдельно, у Gartner же топ 10 технологий в данных и аналитике за 2020 год [3]
1. Smarter, faster, more responsible AI
2. Decline of the dashboard
3. Decision intelligence
4. X analytics
5. Augmented data management
6. Cloud is a given
7. Data and analytics worlds collide
8. Data marketplaces and exchanges
9. Blockchain in data and analytics
10. Relationships form the foundation of data and analytics value

Каждый из этих трендов - это отдельная большая тема, иногда очень большая, и требующая особого внимания.

Ссылки:
[1] https://www.gartner.com/smarterwithgartner/gartner-top-strategic-technology-trends-for-2021/
[2] https://www.it2b.com.br/wp-content/uploads/2020/09/Gartner_Top-tech-trends-2020.pdf
[3] https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/

#gartner #tech #data #analytics #trends
Для тех кто не на шутку озадачен автоматизацией интеграции множества приложений и API, как для себя лично так и для рабочих нужд и не хочет использовать тяжелые коммерческие решения.

n8n [1] бесплатный движок с открытым кодом [2] позволяющий автоматизировать исполняемые потоки задач с помощью хорошо спроектированного веб интерфейса и интеграции с более чем 90 API и приложениями.

За продуктом находится берлинский стартап с одноименным названием поднявший $1.5 миллиона инвестиций в прошлом году [3] явно под будущую облачную платную версию их продукта.

Это довольно удобный инструмент для тех кто любит No-Code платформы, простой в развертывании или в облачном использовании. Для полноты картины не хватает только потестить его на обработке больших данных, например, погонять его на извлечении и обработке десятков гигабайт, но даже в текущем виде есть много задач которые можно с его помощью автоматизировать.

Из интересного, авторы декларируют подход Fair Code [4] в котором определяют что их продукт открыт и бесплатен, но ограничен для коммерческого применения, аргументируя это тем кто крупные корпорации (big tech) паразитируют на открытых проектах.

Ссылки:
[1] https://n8n.io/
[2] https://github.com/n8n-io/n8n
[3] https://www.crunchbase.com/organization/n8n-io
[4] https://faircode.io

#workflow #opensource #tools #datapipelines
Сегодня в 17:00 будут дата-дебаты на форуме "Сильные идеи нового времени" [1] и я там буду и приму участие.

Заявляли туда ещё Максута Шадаева, нынешнего главы Минцифры, но у Максута сегодня день рождения, так что ожидаемо что он сегодня там быть не сможе.

Поэтому Максута поздравляю с днем рождения, искренне желаю больше хорошего регулирования про данные и меньше плохого.

А всех приглашаю смотреть дата-дебаты сегодня на сайте форума.

Ссылки:
[1] https://ideas-forum.ru/

#data`
Один из моих любимых сервисов анализа связей, работы с данными по конфликтам интересов и графам в принципе - это Kumu [1].

Это один из наиболее бюджетных по цене/качеству сервисов по рисованию графов, например, в нём я чуть менее года назад рисовал ещё предыдущую структуру органов управления РФРИТа [2]. Конечно же, исключительно любопытства ради. Ну а поскольку там какие-то изменения в структуре за 2020 год прошли, то не жаль и выложить онлайн.
Главный недостаток в том что если там не заводить платный аккаунт то приватные карты становятся публичными. Эдакая монетизация через полушантаж от платформы, потому что некоторые визуализации ну никак нельзя делать открытыми совсем или до поры до времени. С другой стороны, иные онлайн редакторы графов вроде Keylines как-то уж запредельно дороги.

Если кто-то знает близкие по функциональным возможностям бесплатные и open source альтернативы, обязательно также поделитесь.


Ссылки:
[1] https://www.kumu.io
[2] https://www.rfrit.ru/

#visual #data
На сайте Теплицы социальных технологий заметка о том как лучше стали работать алгоритмы распознавания лиц даже с учётом масок [1]. Заметка весьма будет полезна, как тем кто алгоритмов побаивается, так и тем кто считает что бояться нечего.

Ссылки:
[1] https://te-st.ru/2020/11/11/cctv-mask/

#privacy #surveillance #facedetection
Я в очередной раз отступлю от жанра потока новостей и обзоров и сфокусированно отрефлексию по поводу реформы трудовых книжек.

Среди многих моих грехов, был один связанный с тем что когда-то давно когда у меня было чуть больше времени чем сейчас и больше любопытства к тому что находится за пределами открытых данных меня попросили написать за какие-то смешные деньги маленький аналитический документ о легализации дистанционной занятости. Было это около 8 лет назад и пока я его писал, само собой получился документ с кратким, но чётким описанием АИС "ЭТК" - Электронной трудовой книжки.

Почему грех? Потому что, конечно же, трудовая книжка - это, в принципе, рудимент советской системы всеобщей занятости, эдакая внутрикорпоративная справка о лояльности в корпорации СССР. С распадом союза и формированием капиталистических отношений трудовая книжка как явление давно перестала быть чем-то кроме как формальным обременением как работодателей так и сотрудников. Много лет я не встречал что-бы хоть кто-то относился к ним иначе кроме как к ненужным, но необходимым по закону требованиям.

Но, и это важный момент, трудовые книжки были формой регистрации занятости, если не в полном объёме то в той части которая касалась долгосрочных трудовых отношений. Кто выиграет если переносить их в онлайн систему и электронный вид?

Может показаться что гражданин, но гражданин сейчас в трудовых отношениях может описаться на трудовой кодекс и Роструд, в этих отношениях давно исчезли профсоюзы (за редким исключением) .

Есть ли польза для бизнеса? На самом деле, не то чтобы все, но значительная часть юридических лиц так или иначе трудовое законодательство не то чтобы нарушает, но может подписывать документы задним числом и ещё довольно многое проделывать то что другим знать не обязательно. И не только в целях обхода законов, а по причине архаичности этих самых законов.

Так вот главная проблема в электронными цифровыми книжками не в них самих, а в их эволюции. Полноценный переход к электронным трудовым отношениям очень быстро перейдет к автоматизации и роботизации государственного контроля.

В самом деле:
- если у нас есть запись о трудовых отношениях онлайн, то почему не обязать работодателя заодно загружать трудовой договор сотрудника?
- если у нас есть база трудовых договоров сотрудников, то почему бы не автоматизировать их проверку на нарушение законодательства?
- если у нас есть база трудовых договоров сотрудников, то почему бы не убедиться что все эти договора написаны исходя из справедливых условий работы?
- если все трудоустроенные есть в специальной системе (или в разделе портала госуслуг по трудовым отношениям), то почему не автоматизировать их создание или присоединение к профсоюзу или его цифровому аналогу?
- а также если эталонная версия трудового договора будет онлайн, то можно же для суда не запрашивать его у работодателя, а получать из единой базы трудовых отношений?
- а все порталы агрегаторы услуг фрилансеров могут (можно обязать угрозой налогового уничтожения) автоматически регистрировать все трудовые договора между их клиентами?

Я не буду утверждать что такое развитие является чем-то однозначно плохим и совсем не хочу сказать что положительное перевесит риски. Но я, конечно, надеюсь что нынешнее регулирование электронных трудовых книжек было основано не на моей записке 8 летней давности.

#thoughts #it #working
В октябре началась общеевропейская кампания против сбора биометрии основанной на лице человека "Reclaim your face" (Верни себе лицо) [1] инициированная группой НКО таких как: AccessNow, Article 19, Privacy International и др. На сегодня их петицию подписали 4362 человека [2]

В кампании даны три акцента:
- прозрачность (объясняйте зачем собирается биометрия)
- красные линии (некоторые способы сбора биометрии опасны и лучше запрещать все)
- уважение к людям (биометрия не должна использоваться для массовой манипуляции, уважайте свободу воли)

Ссылки:
[1] https://reclaimyourface.eu/
[2] https://reclaimyourface.eu/the-solution/#sign

#privacy #sureillance
Для тех кто интересуется как устроена работать с данными юридических лиц по всему миру, существуют как минимум два проекта по открытости в этой области.

OpenCorporates [1] крупнейшая в мире открытая база юридических лиц с информацией по более чем 187 миллионам компаний, с некоторыми пробелами (Беларусь и Украина есть, а России нет). Часто информация очень ограничена, без сведений о владельцах, только первичные записи в страновых реестрах. Но для многих задач, например, журналистики данных и этого достаточно.

OpenOwnership [2] НКО, большой проект и реестр юридических лиц с фокусом на раскрытие информации о владельцах организаций (по России данных также нет, но по россиянам владельцам долей в зарубежных компаниях есть). Уже публикуют значительный по объёму набор данных [3] в 18 GB и, что немаловажно, ведут системную работу над стандартом Beneficial Ownership Data Standard (BODS) [4]

Сам проект является результатом кооперации 6 НКО со специализацией на расследованиях в отношении конечных владельцев организаций и работе с базами юридических лиц.

Ссылки:
[1] https://opencorporates.com/
[2] https://www.openownership.org/
[3] https://register.openownership.org/download
[4] http://standard.openownership.org

#opendata #data #ownership
Стартап Inrupt Тима Бернерса-Ли анонсировал корпоративную версию их платформы приватности Solid [1] основанной на проекте с открытым кодом [2]. Идея проекта в том что персональные данные пользователя хранятся в специальных базах данных Personal Online Data Stores и доступны сервисам только тогда когда выполняются конкретные задачи.

Финансирование проекта $16.44M из фондов Glasswing Ventures и Octopus Ventures. Сейчас это финансирование на посевной стадии, привлечено в начале и в конце 2019 года.

Основатели стартапа John Bruce и Tim Berners-Lee, а главный архитектор безопасности Bruce Schneier [3].

Мой прогноз результаты будут очень сильно зависеть от развития регулирования персональных данных в мире, со стороны центральных банков и правительств. Без сильных лоббистских усилий будет сложно добиться значимого результата.

Ссылки:
[1] https://techcrunch.com/2020/11/08/tim-berners-lees-startup-inrupt-releases-solid-privacy-platform-for-enterprises/
[2] https://solidproject.org/
[3] https://www.schneier.com/

#data #privacy
Solid, конечно, не первый и не последний проект с фокусом на возврат данных пользователя/потребителя под его контроль. Таких проектов было и появляется много, далее краткий список.

- Bits about me [1] стартап базирующийся в Швейцарии. Для пользователей бесплатно, продают сервис корпорациям
- Cozy [2] позиционируют себя как личное облако данных. Ещё не предоставляют услугу передачи данных 3-м сторонам с согласия пользователя, но могут добавить с большой легкостью
- DataFund [3] разработчики ПО по децентрализации контроля за персональными данными, аналога Solid у них нет, но есть некоторые первые шаги
- PolyPoly [4] декларируют разработку продуктов по контролю над своими данными, в открытом доступе пока смотреть нечего
- iGrant [5] ещё один европейский стартап управления согласием пользователя, пока результатов не видать.
- MetaMe [6] аналогично, про монетизацию личных данных. Есть только видео

Таких проектов ещё много, чаще всего они классифицируются как PIMS, Personal Information Management Systems [7] куда входят и продукты по защите приватности и продукты по управлению личными данными.

Ссылки:
[1] https://bitsabout.me/en/
[2] https://cozy.io/en/
[3] https://datafund.io
[4] https://polypoly.com
[5] https://igrant.io/
[6] https://metame.com
[7] https://cyber.harvard.edu/projectvrm/VRM_Development_Work#Personal_Information_Management_Systems_.28PIMS.29

#privacy
Правосудие "тяжёлая тема" не только в России, но и в таких странах как США. Юристы стоят дорого, во многом от того что для граждан судебная система более всего напоминает лабиринт. Приложение UnBail [1] переводит судебные разбирательства на язык и форму понятную обывателям, дает пошаговое объяснение судебного процесса и, в принципе, связывает его с сообществом.

Один недостаток, пока это скорее прототип, доступный только после пожертвования команде разработчиков.

И здесь мне хотелось бы сказать что в России оно было бы актуально как никогда.


Ссылки:
[1] https://www.unbail.org/

#justice #mobile
Stuff That Works [1] израильский стартап превращающий данные личного опыта в здоровье в анализ мер и формулировку рекомендаций.

Продукт позволяет пользователю выбрать его состояние и заполнить подробную анкету по развитию этого состояния, информацию о себе, курсе(-а) лечения и результате. Авторы декларируют подход на основе искусственного интеллекта, правда, непонятно где он там.

Финансирование в $9 миллионов стартап получил в июле 2020 года от трёх венчурных фондов [2].

Общая картина. Stuff That Works не первый стартап в этой области, ранее были CrowdMed [3], SickWeather [4], PatientsLikeMe [5] и другие. Главная проблема таких проектов в объективности тех кто описывает свои случаи. Врачебное сообщество, как правило, выступает против рекомендаций в таких проектах что видно, в первую очередь, и в том что за ними и в их командах нет врачей или врачебных институциональных организацией которые бы подтверждали что такой подход имеет право на существование.

Ссылки:
[1] https://www.stuffthatworks.health
[2] https://www.crunchbase.com/organization/stuff-that-works
[3] https://www.crowdmed.com
[4] https://www.sickweather.com/
[5] https://www.patientslikeme.com/

#health #crowd #data
Тем временем выяснилось что Apple использует проверку ключей разработчиков для отслеживания информации о том какие приложения есть на устройствах пользователей с помощью протокола ocsp [1] используемого для верификации сертификатов.
Может это и не отслеживание каждого запуска каждого приложения, но вполне себе слежка за тем что они установлены и используются.

А также, это важно отметить, поскольку все запросы в протоколе ocsp выполняются через http, то это отслеживание может осуществлять не только Apple, но и Ваш домашний провайдер, Ваш работодатель и Ваш дружелюбный сосед человек-паук хакер из соседнего подъезда прослушивающий Вашу сеть.

Если сервис отслеживания ещё не появился в системах мониторинга трафика, то почти наверняка скоро появится.

Ссылки:
[1] https://blog.jacopo.io/en/post/apple-ocsp/

#privacy #security #apple
Свежее исследование Gartner "Debunking Myths and Misconceptions About Artificial Intelligence, 2021" доступно для скачивания у них на сайте [1] и на ресурсах их партнеров и игроков рынка AI, вроде DataIku [2]


Ссылки:
[1] https://www.gartner.com/en/doc/724462-debunking-myths-and-misconceptions-about-artificial-intelligence-2021
[2] https://content.dataiku.com/gartner-debunking-ai-myths/gartner-debunking-myths-about-ai-2021

#ai #gartner
Нынешнюю деятельность Минцифры России я критикую меньше чем других органов или их же деятельность в предыдущем составе. Это не значит что там всё хорошо, просто:
a) Не доходят у меня руки.
б) Во многих других органах власти ситуация значительно хуже.

Пока приведу несколько примеров в моей области, того что они могли бы исправить быстро и что относится скорее к общей организации работ:
1. Реестр аккредитованных организаций в сфере ИТ ведётся как-то уж очень неаккуратно. Открытые данные не публиковались с 2016 года [1]. По хорошему надо бы обновить
2. Тот же реестр публикуемый на сайте Минцифры содержит не менее 119 некорректных реквизитов организаций [2], кодов ОГРН и ИНН. В код ИНН ещё и вписывается предыдущий код ИНН в случаях если одна организация наследует у другой. Что это означает? Это означает что любая аналитика по ИТ рынку на основе этого реестра имеет минимальную погрешность окого 1% (119 записей из 12 тысяч записей всего) и реальную погрешность пока трудно оценить потому что вес разных ИТ компаний в рынке разный.
3. Реестр отечественного ПО в принципе не публикуется ни как открытые данные, ни как Excel файл, а доступен только в форме веб-сайта с поиском и просмотром [3]
4. В реестр удостоверяющих центров [4] включены юридические лица прекратившие своё существование ещё в 2018 году и ранее. Некоторые были закрыты относительно недавно в 2020 году. Например это такие организации как: ООО "КРИПТОАНАЛИТИКА", ООО "ГСЦ", ООО Компания "Эксклюзивные решения" и другие. Весь список не привожу только из лени, проверять каждую организацию долго, но автоматизировать можно. Что важно - у всех из них на сайте корневого УЦ указано что их лицензии действующие.

В целом ничего из этого чем-то критичным не является. Но качество данных складывается из их доступности, своевременности, открытости, пригодности к машинной обработки и доверительности. А доверительность складывается из регулярных проверок данных на полноту и точность.

Ссылки:
[1] https://digital.gov.ru/opendata/7710474375-registergosaccred/
[2] https://digital.gov.ru/ru/activity/govservices/1/
[3] https://reestr.digital.gov.ru/
[4] https://e-trust.gosuslugi.ru

#data #digital