Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
О том когда открытые данные - это не открытые данные. Например, Фонд пространственных данных Санкт-Петербурга упоминает многочисленные данные в своем каталоге как открытые данные. Но, в понимании создателей фонда, открытые данные - это такие данные по которым плата не взимается, но всё равно надо заполнить заявку с заполнением всех своих паспортных данных, то зачем тебе данные нужны и ещё много чего.

То есть открытое в их понимании - это бесплатное. Что, конечно же, не синонимы, а называть открытыми данными такое некорректно.

#opendata #spb #geodata
Интересные стартапы анализа качества данных и качества потоков данных, развивающиеся в мире, но пока малоприменимые в России.

* Metaplane - позиционируют себя как Datadog для данных, позводяют отслеживать резкие изменения в потоках данных и предупреждать при их возникновении. Подключаются к облачным хранилищам и сервисам вроде Amazon Redshift, Snowflake, Google BigQuery, dbt, Looker. Публикуют полезный обзор State of data quality monitoring
* Anomalo - сервис мониторинга аномалий в данных, на текущий момент существует в виде концепта/прототипа/демо, обещают высокую автоматизацию, если даже не автоматическое выявление аномалий в потоках данных
* Data Fold - сервис каталогизации, систематизации данных и предупреждений при нарушениях в потоках данных. У них фокус на такое явление как data outages - задержки в поставках данных и оперативное реагирование. Сервисы с которыми интегрируются практически те же что и у Metaplane
* Databand - платформа для наблюдаемости данных, data observability, с большим списком интегрируемых сервисов и системами предупреждений при аномалиях

Почему практически все они малоприменимы в Росии? Такие платформы оказываются полезны только когда компания уже перенесла или переносит мощности по обработке данных в облака. Когда хранение данных уже вынесено из внутрикорпоративного контура, гораздо легче принимается решение о их внешнем мониторинге и обработке. В России этот тренд всё ещё не настолько проявляется, но постепенно он формируется.

#observability #data #dataquality
Написал в сегодняшнюю рассылку [1] про платформу Гостех, где постарался изложить свою позицию насколько можно подробно.

А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.

- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.

- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.

Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.

Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
Какой сценарий развития ГосТех'а до 2024 года Вам кажется наиболее вероятным (см подробности тут https://begtin.substack.com/p/17-) ?
anonymous poll

Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Го – 54
👍👍👍👍👍👍👍 65%

Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядо – 24
👍👍👍 29%

Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ – 5
👍 6%

👥 83 people voted so far.
Германский парламент как место для дискуссий и объект общественного наблюдения в проекте Open Parliament TV [1], созданном abgeordnetenwatch.de [2] при поддержке фонда Demokratie.io [3].

В проекте собраны видеозаписи всех дебатов парламента Германии с 2017 года и текстовые транскрипты к ним. Через поисковые запросы можно находить любые обсуждаемые темы, а при просмотре видео автоматически идёт движение и подсветка текста в транскрипте.

У всего этого открытый код на Python, PHP, Javascript [4] и открытые данные [5] через API, с хорошей спецификацией и документацией на хранимые данные.

Всё это возможно благодаря тому что Бундестаг открывает машиночитаемые данные у себя на сайте [6] и с помощью библиотеки aenas [7] возможность синхронизации текста и видео.

Авторы обещают постепенно подключать новые парламенты, как знать, может и до российских федерального и регионального парламента доберутся или может кто-то в России сделает это на основе их открытого кода.

Ссылки:
[1] https://de.openparliament.tv
[2] https://abgeordnetenwatch.de
[3] https://www.demokratie.io
[4] https://github.com/OpenParliamentTV
[5] https://de.openparliament.tv/api/
[6] https://www.bundestag.de/services/opendata
[7] https://www.readbeyond.it/aeneas/

#opengov #opendata #opensource #germany #parliaments
Все обсуждают кодекс этики ИИ от ассоциации ИИ, я всё тоже думал что о нём написать. Хорошее, плохое, нейтральное.

Напишу альтернативное. И вопрос ключевой - что есть основа этики законы или убеждения?

В моём понимании Нагорная проповедь и 10 заповедей стоят по уровню выше уголовных кодексов, законов и договоров. Вначале идут общечеловеческие принципы, а далее "законники" вносят их в правила устанавливаемые государством.

Если внимательно читать кодекс ИИ - это не кодекс этики, это присяга в которой ведущие компании в России занимающиеся ИИ говорят нам примерно следующее "Мамой клянёмся законы все соблюдать будем!". Поэтому этот кодекс - это не фундаментальный документ на поколения вперед, а художественный акт саморегулирования без обязательств. Примерно того же уровня, слово пацана, секс без брака, работа под честное слово и тому подобное, но "с учётом законодательства".

Поэтому этот кодекс как присяга - да, как идеология и базовые ценности - нет

#ai #codex #regulation
Результаты опроса https://publielectoral.lat/begtin/3192 предварительные о судьбе ГосТеха:
71% - пессимистичны
25% - реалистичны
2% - оптимистичны

Что тут скажешь, независимый опрос показывает довольно мощный скепсис. Чтото не так со стартом проекта и с коммуникациями по его перспективам.
Вдогонку про регулирование ИИ. Я напомню документ доклада Верховного комиссара по правам человека ООН. Artificial intelligence risks to privacy demand urgent action – Bachelet [1] и прямая ссылка [2]. Этот документ о том что есть критические области такие как: правоохрана, нацбезопасность, уголовное производство и управление границами где использование ИИ особенно может привести к нарушению прав человека. Эти области точно не являются объектом "саморегулирования", они являются предметом юридического и нормативного самоограничения государства в их применении. Поэтому даже если есть некритические области применения ИИ где скорее значение имеет право потребителя, а не право человека, но как только в признании кодекса ИИ в России появляется государство (а оно появилось в лице вице-премьера и ещё в некоторых формах), то и возникает ситуация отсутствия этих самоограничений.

Я ещё раз повторюсь, кодексы декларируют базовые принципы, кому не нравится Библия, могут руководствоваться декларацией прав человека, а когда в кодексе прописано соответствие законам - это сразу девальвирует документ. А кто пишет законы? А что если эти законы несправедливы? А чем должны руководствоваться авторы законов? Законы в России - это не права, а контроль и надзор, чаще государственный, редко общественный. Но оценку на справедливость они не проходят, как и оценку на этику. Так чем руководствоваться законодателю, кодексом? Нет, этот кодекс для этого не годится.

Ссылки:
[1] https://www.ohchr.org/EN/NewsEvents/Pages/DisplayNews.aspx?NewsID=27469&LangID=E
[2] https://www.ohchr.org/EN/HRBodies/HRC/RegularSessions/Session48/Documents/A_HRC_48_31_AdvanceEditedVersion.docx

#ai #regulation
В рубрике "где не в России найти данные о России", Development portal (d-portal.org) [1] портал для навигации по сведениям раскрываемым крупнейшими международными фондами и иными институтами развития о финансировании проектов в развивающихся странах. Кроме стран Азии, Африки и Южной Америки, там есть и немало данных о проектах прошедших и идущих в странах Восточной Европы и СНГ.

Например, страница о России включает сведения о:
- 330 активных проектах
- 2564 завершенных проектах
- 37 организаций публикующих эти данные

Что важно, эти данные содержат не только сведения о средствах которые получают(-ли) некоммерческие и коммерческие организации организации в рамках программ развития, но и средства выделенные на государственные проекты. Например, на развитие второй очереди государственной системы статистики, проект заканчивается в декабре 2021 года или на модернизацию гидрометеорологических услуг, проект заканчивается в декабре 2022 года и многих других которые заинтересованные могут найти.

Все данные доступны как открытые данные в CSV, XML и JSON форматах, а также через SQL интерфейс.

Открытый код проекта доступен на Github, первоисточником данных является IATI Registry, реестр раскрытия сведения о проектах на развитие, включающий стандарт раскрытия этих данных.

В целом же D-Portal - это хороший пример реализации системы раскрытия сведений. С открытыми данными, API, открытым кодом и ещё и способом получения данных через SQL.

#opendata #data #development #world #iati
Forwarded from APICrafter
В каталог DataCrafter были добавлены 40 наборов данных судебной системы города Москвы, они собраны в разделе Судебная система и включают такие наборы данных как:
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.

Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.

Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
В рубрике Особо крупные наборы данных представляю, GeneralIndex - огромная база n-gram, последовательностей слов, собранная из 107 миллионов научных журнальных статей, состоит из 19,7 миллиардов строк извлеченных с помощью SpaCy. Невероятная по масштабу работа проделанная командой Public Resource.

Зачем это нужно? Как минимум для обучения языковых моделей, как минимум для выявления основных направлений исследовательских мыслей, как минимум для задач классификации текстов. И ещё много для чего.

Уже хочется сделать такое для русского языка, но где найти столько статей в открытом доступе?

За наводку спасибо Григорию Бакунову .

Ссылки:
[1] https://archive.org/details/GeneralIndex
[2] https://spacy.io/

#opendata #data #datasets
Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].

Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово

Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.

Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.

Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.

Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.

Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat

Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/

#russian #plainrussian #language
Тем временем казахские СМИ тоже пишут про Гостех, только в Казахстане, но тоже на платформе Сбер'а [1]. Я лично недостаточно разбираюсь в казахских реалиях чтобы квалифицированно комментировать то что там пишут, но похоже что внутриполитические баталии там идут довольно сильные.

Ссылки:
[1] https://vlast.kz/obsshestvo/46896-cifrovoj-peredel.html

#govtech
Forwarded from APICrafter
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.

Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.

Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.

Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds

#opendata #datasets #weather
PrivaSeer [1] специальная поисковая система по 1.4 миллионам политикам приватности на английском языке. Создано командой Penn State College of Information Science and Technology, в качестве первоисточников используются наборы данных Free Company Dataset [2] и Common Crawl [3]. Собранный набор данных составляет более 13,85 гигабайт и его можно скачать как открытые данные [4] под лицензией CC BY-NC (свободно для некоммерческого использования).

Особенности поисковика в определении технологий указанных в политиках приватности, например, Cookies или Fingerprinting, выявление упоминания соответствия регулированию GDPR, Coppa, Privacy Shield, CalOPPA, а также поиск и фильтрация текстов по уровню сложности, для этого использовалась формула Flesch-Kincaid Reading Level.

Ссылки:
[1] https://privaseer.ist.psu.edu/
[2] https://docs.peopledatalabs.com/docs/free-company-dataset
[3] https://commoncrawl.org/
[4] https://bit.ly/2ZB6Y7F

#privacy #datasets #opendata
Иностранные интернет-компании обязали зарегистрировать личный кабинет

Правительство приняло Правила ведения личного кабинета.

- Иностранные IT-компании, ведущие деятельность в Интернете на территории России, должны зарегистрировать личный кабинет на сайте Роскомнадзора и использовать его для взаимодействия с российскими госорганами.

Личный кабинет создается на сайте www.236-fz.rkn.gov.ru.
Для регистрации личного кабинета иностранцам необходимо подать в Роскомнадзор заявление.

Через личный кабинет иностранное лицо будет взаимодействовать с Роскомнадзором и ФАС - получать от них сообщения и передавать им документы и сведения.

Постановление Правительства РФ от 27 октября 2021 г. N 1837
- http://publication.pravo.gov.ru/Document/View/0001202110290004

*
Закон №236-ФЗ о регулировании иностранных компаний был принят ранее и вступил с 01.07.2021г
- https://publielectoral.lat/gip_24/7107

Порядок размещения перечня и сам сайт были уже приняты ранее приказом РКН от 16.07.2021 № 129 -
- https://publielectoral.lat/gip_24/7219

👉 В соответствии с частью 1 статьи 8 закона от 1 июля 2021 г. N 236-ФЗ "О деятельности иностранных лиц в информационно-телекоммуникационной сети "Интернет" Роскомнадзор обязан вести перечень иностранных лиц, осуществляющих деятельность в сети "Интернет" на территории Российской Федерации.

Сайт не работает. Списка лиц нет 🙅‍♂️🤷‍♂️
Ivan Begtin
Иностранные интернет-компании обязали зарегистрировать личный кабинет Правительство приняло Правила ведения личного кабинета. - Иностранные IT-компании, ведущие деятельность в Интернете на территории России, должны зарегистрировать личный кабинет на сайте…
Статья о том как издание The Markup проверило сайт некоммерческой организации Planned Parenthood и обнаружили там 28 трекеров и 40 третьесторонних кук [1], особенность в том что Planned Parenthood - это одна из очень крупных НКО в США, с 200 миллионами посетителями их сайта за последний год. В статье поднимается вопрос о том что в США регулирование НКО в части приватности сейчас недостаточно, в то время как на их сайты приходят многие люди которые могут хотеть скрыть свою принадлежность к дискриминируемым группам или факты наличия у них определенных заболеваний. А получается что организация передает информацию о человеке десятке внешних компаний.

Что интересно, The Markup - это такое техножурналистское издание, регулярно публикующее статьи с данными и с фокусом на мониторинг Big Tech. Чтобы определить трекеры на сайте они сделали специальный инструмент Blacklight с помощью которого можно проверить наличие трекеров на сайте. Можно увидеть эти трекеры для Plannedparenthood.org [3] к примеру.

Конечно, такие инструменты охватывают, в первую очередь международных крупных игроков вроде Google, Facebook, Tower Data, Criteo и других, но некоторых российских тоже умеют. Подробнее The Markup писали о том как они разрабатывали Blacklight [3] и что в целом это не так уж сложно при существующей инфраструктуре и множестве источников сведений о трекерах и компаниях их создающих.

Посмотрим на крупнейшие благотворительные фонды в России:
- Фонд Подари Жизнь https://themarkup.org/blacklight?url=podari-zhizn.ru - 2 трекера и 3 внешних куки
- Фонд продовольствия Русь https://themarkup.org/blacklight?url=foodbankrus.ru - 6 трекеров и 5 внешних кук
- Русфонд - https://themarkup.org/blacklight?url=rusfond.ru - 8 трекеров
- Благотворительный фонд помощи детям https://themarkup.org/blacklight?url=worldvita.ru - 7 трекеров и 1 внешняя кука
- Благотворительный фонд «Дом с маяком» https://themarkup.org/blacklight?url=mayak.help - 3 трекера
- Благотворительный фонд «Линия жизни» https://themarkup.org/blacklight?url=life-line.ru - 7 трекеров
- Фонд Хабенского https://themarkup.org/blacklight?url=bfkh.ru - 3 трекера и 1 кука
- Фонд помощи хосписам Вера https://themarkup.org/blacklight?url=www.hospicefund.ru - 5 трекеров
- Благотворительный Фонд Алеша https://themarkup.org/blacklight?url=aleshafond.ru - 10 трекеров и 13 внешних кук

Это топ 10 фондов с сайта Милосердие.ру [4], до масштабов PlannedParenthood они, конечно, ещё не дотягивают, хотя вот на сайте Фонда Алеша явный перебор с передачей данных в Mail.Ru Group, OOO, Alphabet, Inc., Yandex LLC, CleverDATA LLC, и Aidata.

Желающие могут провести углублённый анализ самостоятельно, посмотреть можно не только топ благотворителей, но и топ банков, топ госсайтов, топ сайтов частных клиник и ещё многое другое. Все это потянет на хороший журналистский материал, при желании.

Как избежать такой слежки хотя бы на сайтах с наиболее чувствительной информацией? Используйте браузеры со встроенной защитой приватности, применяйте такие расширение как disconnect.me и privacybadger, а до владельцев сайтов имеет смысл доносить ту мысль что их удобство по мониторингу должно иметь свои пределы.

Ссылки:
[1] https://www.llrx.com/2021/10/nonprofit-websites-are-riddled-with-ad-trackers/
[2] https://themarkup.org/blacklight?url=www.plannedparenthood.org
[3] https://themarkup.org/blacklight/2020/09/22/how-we-built-a-real-time-privacy-inspector
[4] https://www.miloserdie.ru/article/pervye-v-rejtinge-10-krupnejshih-blagotvoritelnyh-organizatsij-rossii/

#privacy #ngo #adtech