Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Полезное чтение про данные
- Hello Datasphere — Towards a Systems Approach to Data Governance [1] о системном подходе к регулировании датасферы и её отличия от других сфер регулирования. Полезный текст для тех кто думает о том "как нам жить дальше" с регулированием рынка данных
- What is Data Ingestion? | The Definitive Guide [2] что такое загрузка данных, неплохой разъясняющий текст описывающий отличия загрузки данных о событиях и данных в виде батчей.
- IATIConnect [3] свежая платформа для обсуждения работы с данными о международной помощи. Несколько оторвано от российских реалий, но неразрывно связано со всеми странами на территории которых идут военные конфликты и которым оказывается гуманитарная помощь
- GAIA-X [4] европейский проект по стандартизации управления и доступом к данным в облаках. Европейская бюрократия медленная и редко рождает инициативы быстрые к практическому применению, но польза в них бывает.

Ссылки:
[1] https://medium.com/@thedatasphere/hello-datasphere-towards-a-systems-approach-to-data-governance-d602f96c9e1d
[2] https://medium.com/operationalanalytics/what-is-data-ingestion-the-definitive-guide-97be6ed86f27
[3] https://iaticonnect.org/
[4] https://www.gaia-x.eu/

#opendata #data #dataregulation #regulation #reading
Кстати, вот вопрос, про Яндекс.Облако я уже писал что они цены повышают, недавно на CNews была статья про повышение цен Selectel и Datafort. А что с MailRu Cloud который теперь VK Cloud ?

Последний раз они что-то в своём блоге писали в сентябре 2021 г., последняя новость была в ноябре 2021 г. ну и странно что цены не повышают. Или повышают, но молчат?

Просто интересно "бобик сдох" или мы ещё от него чего то ждём? А то выбор между хостинг провайдерами в России невелик, тревожно за родину. Да и в целом с облачными сервисами обработки данных совсем негусто, хоть на китайские переходи, за юани.

#cloud #hosting #data #question
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.

У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].

Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html

#opensource #startups #search #data
Не стоит полагать что политическая открытость даже в развитых странах даётся легко. В Австралии есть фонд OpenAustralia [1] которые много лет создают и развивают проекты по прозрачности власти. Например, они создали проект They Vote For You [2] с трекингом голосов каждого члена палаты представителя и сенатора.

Один из сенаторов, Andrew Bragg, нанял юристов которые теперь пишут угрозы фонду (юридические угрозы, конечно), а через комиссию по делам НКО и вовсе пытаются его ликвидировать [3]. Причина очень проста, сенатору не нравится то в каких формулировках указываются факты его голосования [4] поскольку в проекте указаны самые разные категории вроде "Creating a federal Anti-Corruption Commission" или "Increasing funding for public schools" и там ещё много другого с формулировками чего сенатор оказался не согласен.

Конечно, это всё проблемы парламентской демократии. В России все подобные проекты исчезли примерно 10 лет назад. Отслеживать голосования депутатов было бессмысленно потому что типовое голосование выглядело так: партия власти, или голосует единогласно за, или единогласно не голосует.

Проектов по парламентской открытости в мире много, ко многим из них часто возникают вопросы их политической ангажированности, но в чём их создатели точно правы - в том что без открытости парламентов доверие к ним сильно ограничено.

Ссылки:
[1] https://www.oaf.org.au
[2] https://theyvoteforyou.org.au
[3] https://www.oaf.org.au/2022/03/14/senator-for-nsw-andrew-bragg-threatens-openaustralia-foundation-with-legal-action/
[4] https://theyvoteforyou.org.au/people/senate/nsw/andrew_bragg

#opengovernment #opengov #australia
Новые порталы открытых данных в мире

- radars.mosti.gov.my - портал открытых данных для исследователей от Министерства науки, технологий и инноваций Малайзии
- dataportal.ponderful.eu - портал открытых данных европейского проекта Ponderful о акватических экосистемах
- madih.hu.edu.jo - портал цифрового культурного наследия Иордании, в основном неструктурированные данные, на портале открытых данных
- www.hetor.it - проект по каталогизации открытых данных в сфере культурного наследия в Италии
- opendata.heilbronn.de - портал открытых данных города Хайльбронн, Германия
- datos.legislaturaneuquen.gob.ar - портал открытых данных законодательного собрания Аргентины
- dados.ufscar.br - портал открытых данных Университета Сан Карлоса в Бразилии

#datacatalogs #opendata #dataportals #data
На фоне многочисленных сервисов которые отключают оплаченные аккаунты российским пользователям не могу не выделить beautiful.ai которые не только ничего не отключают, но даже на запрос об альтернативных способах оплаты перевели мой аккаунт в статус образовательного что позволяет пользоваться ими бесплатно. Для тех кто не знает, beautiful.ai - это онлайн редактор презентаций с большим числом готовых шаблонов позволяющих делать презентации простыми и чистыми (clean and simple).

Вот, например, моя презентация про технологии внутри Datacrafter с одной из конференций https://www.beautiful.ai/player/-MyuEBYfxB9mV7TacFFI

Так что если Вы делаете презентации и можете оплачивать сервисы в USD, то всячески рекомендую Beautiful AI.

#presentations #visualizations #services
К вопросу "о табунах ИТшников покидающих страну" и мерах которыми наше государство пытается удержать оставшихся. Я вот как оставшийся, и ИТшник, и работодатель для ИТшников много что могу сказать.

Не все понимают природу этого явления, а отсюда и предлагаемые решения довольно бессмысленные.

В России в части бизнеса некомфортно почти всем. Хотя возможностей и перспектив по многим направлениям было много, но есть какие-то базовые тренды которые не менялись:
- ужесточение ответственности работодателей (уголовные дела за задержку зарплаты)
- сохранение "псевдосоциального гос-ва". Псевдо потому что процедуры увольнения с 3-мя окладами привели лишь к тому что работодатели стали заключать договора с самозанятыми и ИП
- нагрузка на компании непрофильным. Например, почему работодатель должен отвечать за приход сотрудника в военкомат? Почему у нас до сих пор работодатели являются принудительными налоговыми агентами, а работники не сами платят налоги и отчисления в фонды? И такого пруд-пруди
- невозможность кредитования. Это на словах нам обещают льготные кредиты, а на практике пойди получи его, это реально сложно для малого и микробизнеса под более менее разумный процент. Чаще всего директора/владельцы берут личные кредиты на себя
- штрафы и проверки. Все эти разговоры про то "давайте мы Вам заморозим проверки на 1-2 года" звучат примерно так. "Давайте мы пару лет вашу кровушку пить не будем, зато потом оттянемся". А может вообще кровь не надо пить и все эти проверки отменить раз и навсегда?

Это всё взгляд только со стороны работодателя в ИТ. А ещё есть взгляд от ИТ специалиста где возникают вопросы по карьере, востребованности, перспективам, возможности работать с самыми последними технологиями и так далее. Вместо этого призывы в кибервойска, "шутки" про создание шарашек для ИТ, общая массовая депрессия у всех кому текущий военный и гуманитарный апокалипсис противны.

В итоге у нас есть отрасль которая хреново живёт в репрессивной модели госуправления, а эта репрессивная модель меняется только в худшую сторону. Из российских официальных лиц только разве что министр цифры Максут Шадаев более-менее последовательно говорил про поддержку отрасли. Почти все остальные, включая не-буду-называть-по-именам, окологосударственных лоббистов, вызывают только оторопь. И не только у меня. Вот эти мероприятия вроде заседания комитета по ИТ при ГосДуме посылают недвусмысленный сигнал "валите как можно скорее! видите, мы даже Шпака и Касперскую позвали чтобы Вам на это ещё прозрачнее намекнуть".

Поэтому я лично прекрасно понимаю тех кто уезжает, хотя и сам вместе с теми кто остаётся.

Нет другого пути восстановления не только ИТ, но и всех остальных отраслей экономики, кроме резкого и безальтернативного и безоговорочного снижения репрессивности государственной машины. Без резкой либерализации всей экономической деятельности.

Но возможно ли это? Вот в чём вопрос.

#thoughts
Голосуем за планы на будущее: уезжать, оставаться, что делать?
anonymous poll

Не уезжаю потому что немогу – 436
👍👍👍👍👍👍👍 35%

Не уезжаю принципиально – 301
👍👍👍👍👍 24%

Не уехал(-а), но планирую до конца года – 236
👍👍👍👍 19%

Я уже уехал(-а), не вернусь – 142
👍👍 11%

Не уехал(-а), но планирую в 1-2 месяца – 101
👍👍 8%

Уехал(-а), но вернусь – 34
👍 3%

👥 1250 people voted so far.
Ivan Begtin pinned «Голосуем за планы на будущее: уезжать, оставаться, что делать? anonymous poll Не уезжаю потому что немогу – 436 👍👍👍👍👍👍👍 35% Не уезжаю принципиально – 301 👍👍👍👍👍 24% Не уехал(-а), но планирую до конца года – 236 👍👍👍👍 19% Я уже уехал(-а), не вернусь – 142…»
Если вы владете JavaScript или SvelteKit, вы можете помощь проекту Национального цифрового архива, который спасает всё то, что сейчас закрывается.

В связи с архивацией Телеграм каналов, чатов, возникла задача:
4. Визуализация и поиск по JSON-архивам каналов и чатов в Telegram.
Оригинал задачи: https://publielectoral.lat/ruarxive/22


Позволил себе запилить небольшой PoC
Сделано на SvelteKit, используя ES6 (Vanilla JS) с простым входом даже для не-фронтендеров.
👉 https://github.com/roboteam-digital/telegram-json-ui

Demo:
https://telegram-json-ui.netlify.app

Если есть желание помочь, пожалуйста, дополните список минимально необходимых фич, чтобы проект был востребован:
https://github.com/roboteam-digital/telegram-json-ui#todo


💎 Для тех кто задаётся вопросом «Зачем это всё?», ответ тут:
https://publielectoral.lat/ruarxive/5

TL;DR: В связи с последними событиями, ресурсы массово закрываются, поэтому АНО Инфокультура в ускоренном порядке архивирует сейчас всё что ещё можно спасти.
В т.ч. общественно-важные Телеграм-каналы.
Microsoft выпустили Open Data Social Framework [1] большой документ в помощь тем кто собирается достигать общественных и социальных целей с использованием открытых данных. Авторы его Open Data Policy Lab и сам документ подготовлен в рамках вот уже 2-х летней программы.

Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.

Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/

#opendata #microsoft #data
Ничто так не ускоряет выезд IT-специалистов как такие вот "законопроекты".
Forwarded from Нецифровая экономика (Elizabeth Sergina)
Тем временем, компания Евгения Пригожина инициирует закон, который затрудняет выезд IT-специалистов за границу и найм их в зарубежные компании.
Минцифра и комитет по информационной политики ГД выступили с пресс-релизами резко против инициативы по ограничению выезда ИТшников. Но мы то понимаем что такое "вбросы для оценки общественного мнения". Здесь не пресс-релизы нужны, а немедленный арест сотрудников Конкорда которые это публично предложили.

Статью для них, я не сомневаюсь, следователи подберут. Что, не арестуют? Хреново ребята, даже репрессивная машинка в государстве не работает уже. Произнести слово "война" нельзя, а предложить закрыть в стране миллионы людей значит можно.

#thoughts
Результаты опроса, выводы можете сделать сами.

Не уезжаю потому что немогу – 282
👍👍👍👍👍👍👍 35%

Не уезжаю принципиально – 207
👍👍👍👍👍 26%

Не уехал(-а), но планирую до конца года – 156
👍👍👍👍 20%

Я уже уехал(-а), не вернусь – 76
👍👍 10%

Не уехал(-а), но планирую в 1-2 месяца – 53
х👍 7%

Уехал(-а), но вернусь – 25
👍 3%

👥 799 people voted so far.
Свежее исследование ОЭСР The Strategic and Responsible Use of Artificial Intelligence in the Public Sector of Latin America and the Caribbean [1]
о том как ИИ используются в Южной Америке и на Карибах и о том какая реакция на такое использование возникает.

Много кейсов и сравнений, в соответствии с принципами ОЭСР для ИИ, принципами ИИ для G20 и ещё много чего. Множество примеров и, забегая вперед, в лидерах там Колумбия, Мексика, Уругвай и кое-где Аргентина.

От наших реалий это кажется далёким, но не стоит забывать что внедрение ИИ никуда не делось, и социальное неравенство от несправедливого его применения тоже никуда не исчезает.

Ссылки:
[1] https://www.oecd-ilibrary.org/governance/the-strategic-and-responsible-use-of-artificial-intelligence-in-the-public-sector-of-latin-america-and-the-caribbean_1f334543-en

#ai #oecd #reports
Полезное чтение про данные
- о том как FloSQL использует dbt [1] ещё один стартап помогающий управлять потоками данных для труб данных на SQL с интеграцией с dbt внутри. По сути такие продукты - это, в каком-то смысле, продукты по организации SQL кода. Жду когда придумают аналог git'а для SQL или git over SQL (шутка).
- заметка о будущем доверенных сред для исследователей Trusted Data Environment [2] - полезно скорее как развитие мыслей о том как развивается это направление и акценты на data stewardship, data trusts и так далее. Очень далеко от российских реалий, но важно
- Firebolt выпустили Big Data Game [3] забавную онлайн игру о том каково это быть инженером данных.
- у Cube хороший обзор о том что такое Headless BI [4], полезно для всех кто ещё не разобрался
- Data lake vs Data warehouse [5] для сравнения о том что строить, озеро данных или хранилище данных. Главное не строить data swamp;)

Ссылки:
[1] https://www.flosql.com/
[2] https://medium.com/data-policy/trusted-research-environments-require-strong-community-involvement-heres-why-4abe8034a15d
[3] https://www.firebolt.io/big-data-game
[4] https://cube.dev/blog/headless-bi/
[5] https://luminousmen.com/post/data-lake-vs-data-warehouse

#reading #data
Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]

Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.

Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.

Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.

Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack

#olap #analytics #data #reading
В рубрике интересных инструментов по работе с данными DeepHaven [1], компания и одноименный продукт по потоковой обработке данных, поддерживают потоки Kafka, фиды, Solace и тд. Всё это оформлено в цельную платформу полгода назад переведенной в открытый код [2] там всё на Java, а примеры кода на Python и Groovy.

У всего этого есть два любопытных факта:
1. Компания является частной, у неё нет публично известного венчурного финансирования
2. Продукт является цельным, в нём практически полностью отсутствует какая-либо тесная интеграция с венчурными продуктами на данных (modern data stack)

Сами создатели делают явные акценты на том что DeepHaven умеет хорошо делать дельты данных и делает это быстрее и качественнее других [3].

Ссылки:
[1] https://deephaven.io
[2] https://github.com/deephaven/deephaven-core
[3] https://medium.com/@deephavendatalabs/why-deltas-give-deephaven-materialize-their-super-powers-8c64aced3674

#data #datatools #opensource #realtime
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture