Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
На днях просматривая разные рейтинги стран, регионов и тд. в которой раз убеждаюсь насколько большая часть из них не несёт реальной ценности для потребителей/читателей и сводятся они, в большей части, к хайпу СМИ которые их публикуют и создателей которые, опять же, ничего кто кроме веб трафика не ищут.

Пришла идея что очень простой, буквально студенческой задачей по дата журналистике было бы "опрактичивание" таких рейтингов.

Рассмотрим пример, вот есть рейтинг стран по "силе паспортов" [1] в нём есть список лидеров стран и сам он построен предельно просто, по баллам по числу стран к которым есть безвизовый доступ у владельца паспорта.

Полезен ли этот рейтинг реально? Только одним, что пр-ва стран соревнуются кто больше. Но для пользователя нет.

Что мы знаем про страны и про то как туда уезжают/приезжают? То что страны не одинаковы по территории и экономике. То что поездки в страны можно разделить на экономические, туристические и долгосрочные и наверняка ещё много всего.

Так вот если, к примеру, этот рейтинг дорабатывать/перерабатывать, то первый способ это добавить территории стран. Рейтинг меняется с числа стран, на долю суши к которой есть доступ без виз. Такой рейтинг всё ещё неидеален, поскольку доступность африканских стран не делает их сильно перспективными для туризма, но его теперь уже можно дорабатывать с оглядкой на эту цель.

Второй подход. Берём классификацию мирового банка по уровням доходов стран [2] и добавляем коэффициенты для каждого уровня. Самый простой подход в том чтобы дать коэффициент в 1 для стран Low Income, 4 для Lower-middle Income, 7 для Upper-middle Income и 10 для High Income. Эти коэффициенты примерно соответствуют градации в доходах при классификации стран МирБанком.

А потом скрестим это с индексом "силы паспорта". Будет такой True Passport Index. Потому что он будет показывать реальную силу паспорта по доступу к цивилизации. От текущего рейтинга он будет отличаться очень сильно в середине списка, а самые "слабые" и самые "сильные" паспорта почти наверняка останутся на своих позициях.

Это лишь один наглядный пример, по той же логике можно многие какие рейтинги переделать и нормализовать.

Будь у меня побольше свободного времени сейчас, я бы сам такое сделал просто как пример того как неудобны текущие примеры, и как сделать правильно.

Если никто не сделает в ближайшие месяцы, может быть и потрачу один выходной оформив это как тюториал. А так то любой желающий может проверить полезность этого подхода на этом или других рейтингах;)

Ссылки:
[1] https://en.wikipedia.org/wiki/Henley_Passport_Index
[2] https://blogs.worldbank.org/en/opendata/new-world-bank-group-country-classifications-income-level-fy24

#ratings #datajournalism #ideas
Хороший пример дата журналистики / аналитики, заметка CrowdStrike's Impact on Aviation [1]. Автор проанализировал данный показаний датчиков ADS-B для отслеживания самолётов и замерил реальные последствия падения антивируса CrowdStrike для авиации.

Итоги впечатляющие, анализ полезный для всех тех кто вломит CrowdStrike иски. Хочется надеятся что их разорят каким-нибудь особо болезненным способом чтобы такого больше никогда не повторилось (кровожадно).

Там же в статье ещё несколько инсайтов по тому как работают авиакомпании в США, речь тут о них в первую очередь.

Ссылки:
[1] https://heavymeta.org/2024/07/28/crowdstrikes-impact-on-aviation.html

#aviation #data #datajournalism #opendata #adsb #datanalysis
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].

Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.

И всё это в Markdown, расширяемо, и тд.

А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].

Куда ни посмотри, отличный инструмент.

Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals

#opensource #datajournalism #analytics #datadocs #tools
В качестве мини-хобби, очень мини, я время от времени систематизирую ссылки по темам в жанре awesome list на Github с некоторой надеждой что над этими списками не я один буду работать. Надежды, как правило, не оправдываются, за редким исключением.

Список Awesome Digital Preservation, за время существования всего 14 лайков. У цифровой архивации мало фанатов, увы.

Или, например, у меня есть список Awesome Open Data software с ПО и стандартами по работе с открытыми данными. Почти всё ПО из реестра каталогов данных в Dateno, плюс ссылки на форматы файлов и стандарты обмена данными. Звездочек маловато, всего 24, не самая популярная тема.😜

Или вот Awesome Data Takeout со ссылками на сервисы получения всех своих данных из онлайн сервисов. 54 звезды, тоже, очень мало.

Для дата журналистов Awesome data journalism со списками инструментов для визуализации и не только. Набрало, 178 звезд, давно не обновлялось.

Russian Awesome Open data каталог источников открытых данных по РФ. Составлялся очень давно, как-то собрал 200 звездочек, уже практически не пополняется. Вместо него развивали datacatalogs.ru

Побольше в Awesome Forensic Tools с подборкой ресурсов в задачах цифрового дознания. Набрало 472 лайка при том что я почти не прилагал усилий по его пополнению, только один раз собрал всё вместе.

И, наконец, Awesome Status Pages собравшее 2738 лайков. Активное настолько что утомляет, сплошным потоком разработчики создают очередные сервисы проверки и публикации статусов сервисов и используют всякую маркетинговую мишуру чтобы их продвинуть. Дважды предлагали выкупить у меня эту страницу. Чувствую зря я её не продал;)

В общем-то по настоящему выстрелило только последнее, хотя списки составлять я лично люблю. Списки это же частный вид таблицы, можно ещё жанр завести. Awesome table of <something>, но в форматы Github'а или Telegram'а они плохо укладываются. Но может найдется близкий интересный формат

#opendata #datajournalism #data #digitalforensics #readings #thoughts