Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.

На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!

Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.

Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.

Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore

#opendata #france #transport #datasets
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.

На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.

Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.


Ссылки:
[1] http://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/

#opendata #datasets #france #parliaments #opengov
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.

Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/

#opendata #france #datasets
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.

Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.

Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.

Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.

Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala

#opensource #france
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.

DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.

Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.

Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf

#opendata #dataset #economy #france #indicators
Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.

Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.

Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.

Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.

В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.

Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.

Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn

#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.

Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]

Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html

#opendata #datasets #digitalhumanities #france #dataviz
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.

Вот 7 наиболее приоритетных, в моём вольном переводе:

1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.

По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.

Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france

#opendata #ai #france #strategies #reports #readings
В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.

Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.

Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.

#opendata #datasets #france #transport
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
В рубрике как это устроено у них данные кадастра Франции доступны как открытые данные для массовой выгрузки (bulk download) [1] их можно скачать в форматах EDIGEO, DXF или TIFF и использовать в собственных приложениях. Особенность в том что доступны они не через API, а в виде сжатых файлов которые можно скачать одномоментно. Общий объём данных несколько десятков, может быть даже сотен гигабайт в сжатом виде. А также доступны регулярные полные слепки кадастра начиная с февраля 2017 года.

Ссылки:
[1] https://cadastre.data.gouv.fr/
[2] https://cadastre.data.gouv.fr/data/dgfip-pci-vecteur/2024-07-01/edigeo/feuilles/

#opendata #france #datasets #data #cadastre #land
В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).

В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.

Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.

Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf

#opendata #france #domains
В рубрике как это устроено у них Hakala [1] французский репозиторий данных для гуманитарных и социальных наук. Предоставляет открытое API [2], интерфейс OAI-PMH [3] и содержит чуть менее 800 тысяч цифровых объектов.

Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.

Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.

Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.

А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.

Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr

#opendata #data #openaccess #france #datacatalogs