Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них Research Resource Identifiers (RRIDs) [1] научный проект по систематизации общедоступных научных ресурсов изначально в области биоинформатики, а далее и для научных дисциплин. Создаётся FAIR Data Informatics Lab в рамках инициативы SciCrunch [2] организованной для повышения доступности ресурсов, баз данных, инструментов для исследователей в их дисциплинах.

В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.

Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.

Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.

RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].

Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/

#opendata #openaccess #openscience
Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данных, а за всем этим стоит пока небольшой проект создания общедоступного поискового индекса по всем доступным данным, открытый аналог Google Search. Он так и называется Common Data Index.
Причём этот проект 4-х этапный, где каждый этап отдельный под проект.

Чтобы создать поисковую систему нужно:
1. Создать реестр большинства каталогов данных
2. Собрать описания наборов данных в первичные индексы
3. Создать единый поисковый индекс и веб интерфейс над ним
4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных

Вот так это выглядит в майндмапе.

А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл.

Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России.

Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально.

Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #opensource #projects
В рубрике интересных цифровых гуманитарных проектов The Atlas of Early Printing [1] Атлас ранней печати и то как она распространялась по Европе, вплоть до Кракова и Стамбула. Про не-европейские страны практически ничего, про европейские наглядная карта.

Как и многие проекты в области цифровой гуманитаристики, фокус внимания здесь на визуализации, а не на данных. Данных там немного и в виде набора данных команда проекта его не раздаёт, поскольку цель в создании наглядности.

Другой прекрасный проект MANTO [2] наглядное представление мест в греческих мифах. Здесь гораздо больше данных и они тщательно связывают источники, места, мифы, персонажей.

Ещё один яркий проект A vision of Britain through time [3] с наглядной визуализацией статистики и фактов о Великобритании сделанное с большой аккуратностью и наглядностью.

P.S. Я буду время от времени писать про проекты в области цифровой гуманитаристики, разбавляя поток текстов про технологи и государство. Эти тексты будут по тегу #digitalhumanities

Ссылки:
[1] http://atlas.lib.uiowa.edu/
[2] https://www.manto-myth.org
[3] https://www.visionofbritain.org.uk/

#digitalhumanities #data
По поводу роликов российского РОЦИТа о том что данные утекают из-за VPN многие уже написали, например, у Алексея Лукацкого есть правильные тезисы про то что VPN это много разных технологий, а не только обход блокировок [1]

Я же обращу внимание на то что РОЦИТ, конечно, мягко скажем уже далеко не тот. Достаточно очевидно что эти ролики появились не по той причине что в РОЦИТе есть идейные люди против VPN, не думаю что там вообще есть идейные люди или настолько неграмотные технически, наоборот трудно поверить что сами сотрудники РОЦИТа VPN не пользуются. Поэтому ролики эти, как бы помягче, двуличны.

Причём их двуличность двойная:
1. Публичными VPN сервисами меняющими юрисдикцию пользуются для обхода политической (блокировки сайтов), санкционной (сервисы блокируют по российским IP) и другим причинам. VPN сервисы при этом не могут, при всём желании, собирать о вас больше данных чем ваш провайдер, магистральный провайдер, сотовый оператор (как провайдер интернета) или работодатель. VPN сервисы бывают разные: от совершенно "левых" непонятно кем эксплуатируемыми до предоставляемых тяжеловесными компаниями, например, крупными разработчиков антивирусов и файерволов, а также всегда есть решения self-hosted (для самостоятельного развёртывания).
2. Утечки персональных данных происходят не из-за VPN, они происходят потому что экономически или политически мотивированные хакеры взламывают инфраструктуру компаний и отдельных лиц в выкладывают эти данные в открытый доступ или в теневой, но свободный экономический оборот. Первопричины в недостаточной безопасности хранения данных, в избыточном их сборе компаниями и государством и в хорошо мотивированных людях с жёсткой позицией. А из роликов получается что утечки из-за VPN'ов, а не потому что службы инфобеза Сбербанка или Минтруда или АСИ продолбали утечки данных из своих информационных систем.

Поэтому ролики РОЦИТа я не могу назвать ничем иным как целенаправленным введением граждан в заблуждение. Верить им, разумеется нельзя.

Ссылки:
[1] https://publielectoral.lat/alukatsky/7786

#privacy #security #vpn
Вышел стенфордский доклад 2023 AI Index Report [1] о состоянии ИИ за 2022 год и немного за 2023, доклад подробный и интересный, я о его содержании ещё попозже напишу подробностей, а пока 14 графиков на основе этого доклада [2].

В основном про США, но не только.

Графики неплохо передают состояние развития технологий, но, конечно, текст доклада важнее.

На одном лишь я сделаю особый акцент. В США лишь 0.67% выпускников с PhD по ИИ работают на государство. А 65.4% на корпорации и 28.2% в исследовательских центрах.

Не только роль государства, но и и компетенции отсутствуют в системе госуправления, в данном случае США, но думаю что это справедливо для всех стран.

Ссылки:
[1] https://aiindex.stanford.edu/report/
[2] https://hai.stanford.edu/news/2023-state-ai-14-charts

#ai #reports