Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Не бывает нормальных госреестров, бывают недообследованные (с)

Чтобы для коллег из Минцифры которые читают мои публикации потом это не было неожиданностью, несколько фактов про реестр аккредитованных ИТ компаний [1]

1. Примерно у 1.5% записей недостоверные реквизиты, около 200 записей из 13543. Не точно потому что где-то записи дублируются, а где-то, например, перепутаны названия организаций и реквизиты ИНН/ОГРН соседних записей и требуется ручная проверка. Скорее всего реально записей с ошибками больше.
2. Многие ИТ компании одновременно являются образовательными учреждениями и я не понимаю как они заявляют (заявили) выручку от ИТ в 90%. Примеры: Университет Иннополис, Московский технологический университет, Прайм-Сервис и др.
3. В реестре ИТ компаний много госучреждений, ФГУПов и компаний учрежденных органами власти. Трудно отнести их к ИТ компаниям, хотя, формально под критерии они могут подпадать. Последний забавный пример, ФГУП «Главный научно-исследовательский вычислительный центр» Управления делами Президента Российской Федерации теперь также "ИТ компания" с пониженным налогообложением.
4. Это ещё не все вопросы. Самый главный вопрос всегда в достоверности того что основной выручкой компаний является ИТ деятельность.

И отдельная большая тема, интересная по другому, о том почему многие компании в ИТ рынке с большой выручкой не регистрируются в этом реестре.

Однажды у меня или коллег дойдут руки посмотреть на это всё более пристально. Пока же лишь обращаю на этот реестр внимание и на то что в других отраслях ситуация не сильно лучше и чаще сильно хуже и по достоверности данных и тому что в госреестры вносят. Достаточно вспомнить Минэкономразвития с реестром СО НКО который почистили от ошибок по формату и ничего не сделали со смысловыми ошибками.

Ссылки:
[1] https://digital.gov.ru/ru/activity/govservices/1/

#government #registries #it
Я всё искал живые примеры того как хорошо/плохо построена работа с данными и сколько иллюзий у граждан/бизнеса/пользователей. Многие, например, думают что госорганизации публикуют плохие данные специально, а где-то внутри и тайно хранят и используют хорошие. Такое бывает очень редко, а чаще миром правит худоумие, а не хитроумие. О многих историях об этом написать нельзя по разным причинам, но о каких-то публичных и общедоступных более чем необходимо.

Рассмотрим пример, Центр по лицензированию, сертификации и защите государственной тайны ФСБ России [1] в открытом доступе публикует 4 реестра [2], все в формате .docx файлов:
- Реестр лицензий на деятельность, связанную с шифровальными (криптографическими) средствами
- Реестр лицензий на деятельность по разработке и производству средств защиты конфиденциальной информации
- Реестр лицензий на деятельность по выявлению электронных устройств
- Реестр лицензий на деятельность, связанную с оборотом СТС

Среди них, первый реестр, лицензий на деятельность, связанную с шифровальными (криптографическими) средствами - это файл MS Word (.docx) состоящий из одной таблицы в 1985 страниц и 4880 записи. Алексей Лукацкий ранее писал что этот файл с коллосальным трудом открывается, действительно, это аномально вести реестр таким образом. Для тех у кого не получится его открыть, я когда-то делал специальную утилиту docx2csv [4], она умеет вытаскивать таблицы из .docx файлов и сохранять их как серию файлов CSV или один XLSX.

Поэтому то что этот и остальные реестры публикуются в docx формате - это проблема, но проблема скорее культурная. Если бы в центре реально хотели делать это максимально вредным способом то публиковали бы реестр в виде отсканированного PDF файла с утверждающей подписью руководителя и аргументами что "только так можно дать ему юридическую значимость". Но, слава Богу, это не наш случай. Наш случай - это культура ведения реестра.

Сравнительно недавно я делал другую утилиту для командной строки, undatum [5] специально для разного рода операций преобразования и проверки данных и с её помощью регулярно проверяю разного рода официальные реестры на достоверность самых базовых реквизитов ИНН и ОГРН. Причём на уровне самой-самой простой проверки на валидность, даже без поиска по ЕГРЮЛ, проверки соответствия наименованию, кросс-валидации и так далее.

Так вот из 4880 записей у 191 (3,9%) недостоверные сведения в поле ОГРН и у 120 (2.4%) недостоверные сведения в поле ИНН. Чаще это отсутствие кода, реже это неверно введённые коды. Всего есть 16 организаций в сведениях о которых нет указаний на их коды ИНН и ОГРН одновременно. Причём все они не секретны, у многих, например, АО КБ "Хлынов", есть другие лицензии в этом же реестре и при этом заполненные реквизитами.

Являются ли эти данные достоверными? Где совершена ошибка: при их внесении, при подаче заявки на лицензию заявителем или, быть может, логичнее предположить ещё на этапе организации ведения реестра. Если он ведётся даже не в Excel и уж точно для него нет даже самой простой системы ведения реестров, если у него нет синхронизации и проверки с ЕГРЮЛ, если у него нет регламента ведения и так далее, то в нём как и в сотнях других реестров государства и опубликованных данных - будут ошибки. Эти ошибки накапливаются и итоговые системы принятия решений основанные на этих данных дают значительные искажения.

Напомню что я писал о подобных случаях с реестрами Минюста, Минцифры, Минэкономразвития, Федерального Казначейства и других органов власти. Качество данных государства - это общая проблема, пока мало кем решённая.

Ссылки:
[1] http://clsz.fsb.ru
[2] http://clsz.fsb.ru/clsz/license.htm
[3] https://publielectoral.lat/alukatsky/3880
[4] https://github.com/ivbeg/docx2csv
[5] https://github.com/datacoon/undatum

#opendata #dataquality #registries
Ещё один "мелкий нюанс" с новым реестром отечественного ПО [1] - это "гниение ссылок". Ссылки из старого реестра не открываются в новом заменой домена, а также при формировании ссылок в них указывается не номер программы в реестре, а на технический идентифкатор в базе данных. Вот пример: [2], код программы в реестре ПО 10269, а идентификатор в ссылке 330494 (reestr.digital.gov.ru/reestr/330494/). Такое вообще не редкость и бывает когда разработчики изначально не думают о пользователях. Я знаю десятки сайтов органов власти где подобное происходило неоднократно при замене CMS системы или создании нового сайта госоргана/госучреждения.

Эта проблема есть не только у госорганов. Например, в Великобритании достаточно давно, с 2017 года, обсуждают об создании постоянных ссылок для государственных документов [3] и рассматривают DOI в этом качестве. Казалось бы какая очевидная идея и можно было бы применять не только для цифровых документов, но "почему то", такие инновации внедряются с большим трудом и не только в государстве.

Но есть и примеры постоянных ссылок с момента появления организации. W3C имеет W3C URI Persistence Policy [4] с 1999 года и все опубликованные документы W3C всегда доступны по тем ссылкам что они были размещены.

Впрочем, надо отдать должное коллегам из Минцифры, экспорт в XML из реестра, наконец-то, заработал, что, отчасти снимает проблему устаревания ссылок поскольку в экспортированных данных есть уникальные идентификаторы ПО. Но, счастье было бы полным, если бы экспорт в XML содержал _все_ данные по карточкам ПО, например, сейчас не экспортируются код ОГРН владельца ПО.

Кроме того, я напомню, в данных есть ошибки с реквизитами организаций. Сильно меньше чем в других госреестрах, но доли процента записей (около 10 невалидных кодов ИНН).

В любом случае это лучше чем было, теперь реестр можно подвергать автоматическому анализу, как минимум.

Возвращаясь к изначальной теме, вся проблема с устареванием ссылок в реестрах как раз могла бы решаться через уникальные ссылки основанные на уникальном идентификаторе записи присвоенной приказом, а не техническом номере в базе данных.

В остальном же лучше публиковать данные дампами на дату и создавать раздел "Открытые данные" и у этого есть 2 причины:
1. Так просто напросто удобнее в работе с данными которые меняются со временем. Пример похожей модели - это данные ФИАС где регулярные дампы в XML и DBF и всегда можно их сравнить
2. Некоторые криворукие разработчики делают экспорт данных динамическим. Когда таким образом экспортируется от 10 до 100 записей проблем не возникает. Когда идёт экспорт всего реестра - это гарантированный способ положить всю систему DDoS атакой. Кешировать данные для экспорта - это, также, подставка для кривых рук. Регулярные (ежесуточные/еженедельные) дампы и API - это правильное решение.

А в целом реестров в стране десятки тысяч, я давно хочу написать что я думаю по тому как они должны быть/могли бы быть организованы уже в виде концептуального документа.

Ссылки:
[1] http://reestr.digital.gov.ru
[2] https://reestr.digital.gov.ru/reestr/330494/
[3] https://github.com/alphagov/open-standards/issues/75
[4] https://www.w3.org/Consortium/Persistence

#opendata #digital #registries
У 77% от общего числа или, в цифрах, у 3852 некоммерческих организаций в России в форме АНО, фондов, благотворительных фондов, общественных фондов, экологических фондов, религиозных организаций зарегистрированных в России за 2021 год в ЕГРЮЛ отсутствуют сведения об учредителях. Много это или мало? За 2021 год было зарегистрировано всего 5143 подобных НКО. Соответственно 77% от их числа - это очень много.

Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.

Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680

Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].

Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,

Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.

А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.

Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.

Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru

#opendata #data #registries
Дмитрий Скугаревский из Европейского университета опубликовал в Рюмочной ИПП [1] результаты анализа полноты данных в ЕГРЮЛ, надеюсь он и его коллеги выложат в будущем результаты в виде статьи или иной завершённой работы с кодом и данными. От себя прокомментирую что коллеги охватили период до 1 января и анализировали полноту заполнения сведений.

Я же ранее писал 8 ноября о том что проблема не в общем списке юр. лиц, а только тех которые зарегистрированы в 2021 году. Это 3852 организации у которых полностью отсутствуют сведения об учредителях. Это аномально, странно, ненормально и, в принципе, противоречит открытости не то что некоммерческих организаций, но и деловой практике проверки контрагентов в принципе.

Причём это касается всех НКО, так что тут не может быть связи с санкционными рисками в чистом виде, а если и связано, то решение проблемы хуже самой проблемы. Я напомню что Инфокультура ведёт проект Открытые НКО где эти данные, также, необходимы.

#opendata #data #registries #ngos
Хорошая новость в том что Минцифры наконец-то начали чистить/приводить в порядок реестр отечественного ПО и опубликовали перечень правообладателей с нерелевантными сведениями [1] с призывом им зайти и обновить о себе информацию. Как сторонник повышения качества госданных лично я очень поддерживаю эту идею, все бы реестры можно было так почистить.

Контроль качества данных - это вообще очень нужное дело, нет ничего постыдного в наличии неактуальных сведений если есть понимание что с ними делать и как разрешать спорные ситуации недостоверности/неполноты сведений.

А, в целом, задача нетривиальная. В России многие юридические лица ликвидируются без ликвидации, их владельцы перестают ими заниматься и просто сдают нулевые балансы или переписывают на номиналов или ещё что-то, в общем компания есть в каком-нибудь реестре, на ней есть какие-нибудь лицензии, разрешения, ещё что-то, а контакты все нерелевантны и кроме как официальными письмами на юр. адрес с ними не связаться, а если и связаться то не факт что будет ответ.

Поэтому:
а) Хотелось бы чтобы и многие операторы российских реестров взяли такую практику на вооружение.
б) Если Вы относитесь к компаниям в этом списке или знаете тех кто к ним относится, не поленитесь и попросите их актуализировать сведения о себе.

А практику и качество ведения этого реестра и других реестров организаций предлагаю обсудить у меня в чате @begtinchat

Ссылки:
[1] https://reestr.digital.gov.ru/irrelevant_right_holders/

#registries #it #digital
По поводу "реестра токсичного контента" [1] который продвигает г-н Ашманов многие уже написали, а я добавлю что, конечно, жаль что в России нет закона о лоббизме потому что у Игоря Ашманова в данном случае есть прямой конфликт интересов поскольку правильно указывать аффиляцию Игоря Ашманова как бенефициара компании Крибрум (он её основатель), а общественные позиции не более чем инструмент повышения капитализации активов.

Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.

Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.

Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance

#registries #ashmanov
Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].

В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения

И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.

Ссылки:
[1] https://www.gosuslugi.ru/armydelay

#government #registries #opendata
Признаться я не слежу именно за ПМЭФом, но немного слежу за тем что касается ИТ отрасли. В канале Минцифры приводят фразу Чернышенко (вице-премьер) , я воспроизведу её часть.
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...

Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.

Вот как-то так.

UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.

Ссылки:
[1] https://publielectoral.lat/mintsifry/1215

#registries #it #itmarket
it_anomalies_20220801.zip
53.6 KB
Минцифры, конечно, почистили реестр аккредитованных компаний, да вот незадача, не до конца, не полностью и все. В архиве списки компаний для которых, за некоторым исключением, основная область - это не ИТ.
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?

Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.

#itmarket #digital #registries