Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Сегодня был на пресс-конференции посвященной новым президентским грантам. В коей-то веки выбрался на мероприятие не поговорить, а послушать.

Многое понравилось, и про требования к прозрачности НКО, и про новый подход к оценке и про управление конфликтами интересов.

Я там хотел задать несколько вопросов о том чего я не услышал.

1. Будут ли требования ко всем грантополучателям публиковать результаты под свободными лицензиями Creative Commons и открытые данные когда создаются базы данных?
2. Будут ли открыты результаты работы НКО по грантам и будут ли публиковаться все их отчеты и иные материалы созданные в процессе?
3. Будут ли обязательно архивироваться все результаты всех грантов в цифровом архиве?

Приведу пример по последнему пункту. Новый сайт президентских грантов http://pgrants.ru сменил предыдущий http://grants.oprf.ru , но материалы со старого сайта не были перенесены. Теперь они доступны только по прямым ссылкам, например, https://grants.oprf.ru/grants2016-1/ но это еще надо догадаться и для незнающего человека старый сайт просто исчез.

Безусловно у меня была его копия и еще одну я делаю прямо сейчас по ссылкам которые остались в доступе, но сохранение результатов работы - это важная задача.

Про открытость НКО подробнее напишу в другой раз.

#opendata #opengov #grants
Илья Массух, директор Центра компетенций по импортозамещению в сфере ИКТ, у себя в фэйсбуке [1] приводит ссылку на годовалой давности судебное разбирательство управления Роскомндзора с МГТС по поводу "больших данных" [2]

Дело примечательное тем что там "всплывают" коммерческие отношения между МГТС и группой компаний рекламодателей по продаже им истории посещений сайтов браузеров пользователей.

Из разбирательства можно узнать что:
1. В МГТС была реализована система сбора данных о пользователях на базе решения ООО "Безопасный интернет" [3]
2. МГТС заключало следующие договора с компаниями о передаче им данных:
- от 31.07.2015 № D150075282 с ООО "АМБЕРДАТА" (договор действующий);
- от 29.08.2014 № 62104 с ООО "ОБМР" (договор приостановлен);
- от 29.10.2015 № 015s00081938 с ЗАО "Современные технологии рекламы"
(договор действующий);
- от 30.07.2014 № 61876 с ООО "Кроссмедиа - Видео Интернешнл" (договор
расторгнут 12.03.2015).
3. Штраф составил всего 30 тысяч рублей.

К этому судебному разбирательству я дополню:
1. ООО "Безопасный интернет" [3] напрямую почти не поставляет, но все же поставляет по госзаказу. Из их профиля на Госзатратах [4] можно найти 1 их контракт на 392 тысячи рублей [5].
2. Компания получала поддержку от РВК [6] и ее заявленная специализация была в фильтрации трафика.

Что важно в этой истории - в том что компании поставляющие контентной фильтрации и DPI включают в свои решения то возможность сбора истории посещений пользователей и передача рекламным компаниям.

Пользуясь Интернетом и без "закона Яровой" Вы всегда должны помнить что можно поднять всю историю Вашего посещения всех сайтов если они не поддерживают HTTPS или если Вы не работает через VPN.

Основные пользователи этой информации - рекламные холдинги, но, при необходимости, доступ к ней могут получить и правоохранительные органы. И, конечно, всегда есть риск что эту информацию могут украсть хакеры, слить сотрудники провайдера или тех компаний которым провайдер продает эти данные.

Если кратко - соблюдайте информационную гигиену, помните что наедине с компьютером рядом с Вами еще и Ваш провайдер.

Ссылки:
[1] https://www.facebook.com/ilya.massuh/posts/1099118726900363?pnref=story
[2] http://kad.arbitr.ru/PdfDocument/898157da-8f67-4c18-8a6b-d74d68162eac/A40-14902-2016_20160311_Reshenija%20i%20postanovlenija.pdf
[3] http://ubic.tech/
[4] https://clearspending.ru/supplier/inn=7704780110&kpp=770401001
[5] https://clearspending.ru/contract/0301100003713000013/
[6] http://www.rvc.ru/investments/innovative_projects/3027/?sphrase_id=2593

#personaldata #privacy
Giorgia Lupi: How we can find ourselves in data [1] отличное выступление о том как визуализировать данные о человеке наглядно, как рассказывать истории о себе на основе собственных данных.

У нее много отсылок на интересные проекты по визуализации. Например Dear Data [2] книга о визуализации данных и примеры работ группы из компании Accurat [3]

Ссылки:
[1] https://www.ted.com/talks/giorgia_lupi_how_we_can_find_ourselves_in_data
[2] http://www.dear-data.com/
[3] http://www.accurat.nyc/

#data #dataviz
Для тех кто работает за MacOSX появился новый бесплатный инструмент по визуализации Tad [1]
Он объединяет просмотр CSV с возможностями анализа данных.

Конечно, ему еще далеко до OpenRefine который объединяет функции просмотра с функциями data wrangling, но новые удобные инструменты - это всегда полезно в работе

Ссылки:
[1] http://tadviewer.com

#data
Хакеры выкрадывают и выкладывают хакерские инструменты спецслужб. Этой товтологией можно назвать публикацию в Motherboard "Your Government's Hacking Tools Are Not Safe" [1]. Хакер взломал [2] ресурсы компании Cellebrite и выложил [3] огромную подборку инструментов для взлома устройств на базе Android, IOS и Blackberry.

Другая группа, "The Shadow Brokers", опубликовала набор эксплойтов для Windows [4] предположительно выкраденных у NSA (Агентства Национальной Безопасности США).

Все это о том что государство плохо умеет хранить свои секреты, даже те которые помогают получать доступ к чужим секретам. Если вернуться к России то проблема последних законов по длительному хранению трафика, создают риск не только их нецелевого использования, но и взлома со стороны хакеров.

Ссылки:
[1] https://motherboard.vice.com/en_us/article/your-governments-hacking-tools-are-not-safe
[2] https://motherboard.vice.com/en_us/article/hacker-steals-900-gb-of-cellebrite-data
[3] https://motherboard.vice.com/en_us/article/hacker-dumps-ios-cracking-tools-allegedly-stolen-from-cellebrite
[4] https://motherboard.vice.com/en_us/article/shadow-brokers-dump-alleged-windows-exploits-and-nsa-presentations-on-targeting-banks

#security #privacy #dataethics
В качестве небольшого оффтопика я написал текст на блог в Medium о выборе минималистичного текстового редактора [1]. Текст немного великоват для отправки в канал в Telegram или в Facebook, но в процессе его написания я в очередной раз задумался насколько актуальны вопрос "чистописания" во всем что касается госуправления.

Государственный и нормативный юридический языки жутковаты для восприятия простыми людьми. Или даже непростыми, но ценящими свое время людьми. Вот уже за долгие годы я до сих пор не встретил ни одного качественного редактора текстов для юристов дающего инструменты упрощения текста для понимания простыми людьми с сохранением смысла.

Ссылки:
[1] https://medium.com/@ibegtin/chooseminimalisticeditor-22b6ccecd980

#opengov #plainlanguage
Jennifer Brody, бывший сотрудник сената США и теперь сотрудник стартапа Voatz [1] написала обзор технологий Blockchain в государстве [2]. Кроме непосредственно стартапа который она представляет и который помогает в технологиях голосования, она упоминает несколько уже внедряемых проектов. Таких как реестр имущества/земель в Грузии [3] реализуемый компанией BitFury [4] и стартап BanQu [5] для идентификации пользователей, тоже на блокчейн.

А 13 апреля правительство Украины подписало с теми же BitFury соглашение о партнерстве [6], [7], [8] и теперь планирует публиковать многие государственные данные через технологии blockchain'а.

Признаться я лично до сих пор считаю blockchain хайпом и слишком часто вижу как стартапы и компании не подкрепленные никакой ценностной идеей кроме как мантры о блокчейне продают ненужное и бесполезное. Однако, с другой стороны, если отойти от маркетингового пузыря и обратить внимание на возможности самих технологий distributed ledger technologies (dlt) подвидом которых является blockchain, то действительно есть области в которых эти технологии могут принести серьезные изменения: в первую очередь в областях связанных с системами доверия между большим числом контрагентов.

Ссылки:
[1] https://voatz.com/
[2] https://medium.com/@brodyjab/blockchain-for-government-dd5708e9d0d8
[3] https://www.forbes.com/sites/laurashin/2016/04/21/republic-of-georgia-to-pilot-land-titling-on-blockchain-with-economist-hernando-de-soto-bitfury/
[4] http://bitfury.com
[5] http://www.banquapp.com/
[6] http://www.dknii.gov.ua/content/garyachi-novyny
[7] http://www.reuters.com/article/us-ukraine-bitfury-blockchain-idUSKBN17F0N2
[8] http://bitfury.com/content/4-press/4_13_17_the_bitfury_group_ukraine_egovernance_release.pdf

#data #blockchain #dlt #government
Будет ли фармацевтика будущего в руках крупнейших фармацевтических холдингов или человечество придумает когда-либо способ сохранять здоровье и излечиваться от болезней без безумных расходов на лекарства и врачей?

Ответ на этот вопрос пока нельзя узнать, что можно узнать так это то что активно в мире развивается движение под названием "open source medicine". Как развитие открытых исследований сопровождаемых публикацией исходных кодов. Организация Medicines for Malaria Ventures финансирует проекты по открытым исследованиям [1], а проект Open Source Malaria [2] привлекает сотни ученых по всему миру к поиску открытого лекарства от малярии. Подробнее можно прочитать в научной статье "Open Source Drug Discovery: Highly Potent Antimalarial Compounds Derived from the Tres Cantos Arylpyrroles".

Structural Genomics Consortium [4] публикует структуры молекул для стимуляции последующих исследований. А CO-ADD The Community for Open Antimicrobial Drug Discovery [5] формирует сообщество по поиску новых антибиотиков.

Это, безусловно, не единственные проекты в этой области, и в то же время именно такие проекты формируют будущее медицины и поиска новых лекарств.

Ссылки:
[1] https://www.mmv.org/research-development/open-source-research
[2] http://opensourcemalaria.org/
[3] http://pubs.acs.org/doi/full/10.1021/acscentsci.6b00086
[4] http://www.thesgc.org/
[5] http://www.co-add.org/

#opensource #health #opendrugdiscovery
Многие уже написали о проекте USAFacts [1] который представляется как "USAFacts is a new data-driven portrait of the American population, our government’s finances, and government’s impact on society."

Действительно, интереснейший проект с собранными и удобно поданными данными о населении, финансах, доходах и расходах бюджета и многом другом.

Проект, очень хорошо сделан, в нем интересно что цифры предоставляются в сравнении с 1980 года и в том что за каждой цифрой есть тщательная методология [2], вдохновением для проекта оказался разговор Стива Балмера с женой [3], в котором он задался вопрос о том что государство делает с теми деньгами что оно собирает в виде налогов.

На мой взгляд это одна из лучших визуализаций бюджетов стран и, конечно, это ровно тот проект который логично было бы иметь любому государственному мозговому центру до начала любых реформ. В какой-то степени он напомнил мне проект DataUSA [4], который тоже совсем недавно упоминался и в котором собрана локальная и гиперлокальная статистика образования, производства, здравоохранения, населения и многое другое.

Подобный проекты практически всегда основанные на открытых данных. Но на открытых данных прошедших тщательную верификацию и упаковку в аналитический продукт.

Ссылки:
[1] https://www.usafacts.org
[2] https://www.usafacts.org/methodology
[3] https://www.usafacts.org/about
[4] https://datausa.io/

#opendata #data #analytics

P.S. Теперь я также начал вести блог на Medium и для тех кому это удобнее, можно читать меня там https://medium.com/@ibegtin/usafacts-e5c623c81097
Вышел доклад "The State of weather data infrastructure" [1] от The Open Data Institute посвященный инфраструктуре метерологических данных в Великобритании, других странах и данных создаваемых частным сектором.

Это интересный отчет для всех кто интересуется тем как устроены метеоданные за пределами России. Главные тезисы отчета можно свести к следующим:

• бизнес активно создает новые сенсоры и платформы и создает и анализирует метеорологические данные без участия государства;
• метеорологические ведомства, с одной стороны должны регулярно обновлять парк оборудования и использовать суперкомпьютеры, а с другой от них ждут открытых данных и сами они публикуют данные открыто, а не продают их;
• необходимы дополнительные инвестиции в data инфраструктуру метеоданных для обеспечения доступности данных.

В докладе много ссылок на существующие частные инициативы. Например, проекты PlanetIQ [2] и TAMDAR [3] , а также много последних новаций в том что касается предсказания погодных явлений.

Ссылки:
[1] https://theodi.org/the-state-of-weather-data-infrastructure-white-paper?utm_source=digg
[2] http://planetiq.com/
[3] https://weather.panasonic.aero/

#opendata #data #weather
В блоге Keen.io обзор архитектур анализа данных в Twitter, Facebook, Airbnb, Netflix и Pinterest [1]. Практически все они работают на технологиях Apache Kafka, Apache Spark, Apache Storm, Elastic Search и Hadoop.

Там же много ссылок на публикации архитектуры данных этими компаниями. Например, "Behind the Pins: Building Analytics" [2] и "Data Infrastructure at Airbnb" [3]

Миллиардные транзакции ежедневно происходящие в этих системах поражают. Если и говорить про большие данные, не в маркетинговом, а в осмысленном понимании, то они происходят именно там.

И здесь можно обратить внимание на несколько важных явлений:
- все решения на базе открытого кода. У всех крупнейших компаний, или на базе открытого кода, или собственные разработки;
- повсеместная стандартизация компонентов;
- акцент на горизонтальном масштабировании.

Ссылки:
[1] https://blog.keen.io/architecture-of-giants-data-stacks-at-facebook-netflix-airbnb-and-pinterest-9b7cd881af54
[2] https://medium.com/@Pinterest_Engineering/behind-the-pins-building-analytics-f7b508cdacab?s=hi-from-keen-io
[3] https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c

#bigdata #data
Помните я писал про архивацию и то что нехватает мощностей для проекта по архивации госсайтов?
Мы наконец-то сделали страницу сайт всей инициативы и то куда можно собирать средства - http://archive.infoculture.ru

Это Национальный цифровой архив России (НЦАР) большая инициатива состоящая из многих проектов в будущем, а пока из двух:

1-й - это "Консервированное государство", архивация всех официальных сайтов, социальных аккаунтов, сайтов спецпроектов и тд созданных на госсредства и от государственных органов и учреждений.
2-й - это пока разрозненные специализированные коллекции из сайтов, баз данных, других цифровых артефактов по темам не обязательно относящимся к государству. Например, это сайты банков или закрываемых онлайн проектов.

Сайт пока еще в состоянии доработки, мы его только-только сделали, но можно уже его показывать.
Значительная часть собранного уже опубликована и общедоступна. Они есть по ссылкам на сайте и доступны для выгрузки тут - http://cdn2.sdlabs.ru/preservation/webcollect/
Но там не все, там нет последних 3 терабайт официальных сайтов которые пока некуда выкладывать

Однако это очень большие объемы и мы постепенно и постоянно упираемся в потолки объемов данных, даже не для хранения, но для раздачи.
Одно из решений - это аренда 2-х Storage Box по 10 терабайт на серверах хостера Hetzner. Он обойдется примерно в 72 тысяч рублей в год.

Архивация государственных сайтов - это особый проект. На него мы врядли сможем привлечь грантовое или государственное финансирование, к нему же сложнее получить поддержку от крупных российских интернет-компаний, поэтому мы попробуем устроить краудфандинг.
Для этого достаточно 72 людям сбрасываться по 1 тысяче рублей в год.

Скажу сразу это небольшая сумма, однако мы в Инфокультуре ведем очень много проектов таких как Открытая полиция, Госзатраты, Хаб открытых данных, Понятный русский язык, День открытых данных, хакатоны, конкурсы, мероприятия и еще многое и в итоге силы и средства распеределены по всем ним.

Краудфандинг для меня лично - это столько сбор средств, сколько то что проект по консервации общедоступной государственной информации - это нужно и востребовано.

Если получится собрать больше денег, то все они будут направлены на:
- холодное резевирование данных чтобы было минимум по 2-3 копии любых данных
- оплату работы программистов для создания утилит для архивации данных из социальных аккаунтов ОК, VK, Facebook и др
- создание удобного интерфейса для поиска по архивам
Пока я пишу это только в формате Facebook'а и других площадок на которых я публикуюсь. Чуть позже мы запустим и официальную кампанию по сбору средств на Planeta.ru

Сделать пожертвование можно через Яндекс.Деньги или переводом на банковский счет, реквизиты и форма по ссылке http://archive.infoculture.ru/donate/
Если у Вас есть или будут идеи того что и как архивировать, готовность помочь и так далее - пишите мне на ibegtin@infoculture.ru

#digitalpreservation
На днях прошла новость о том что проект Имхонет, состоящий из рекомендаций фильмов, книг и многого другогоб закрылся [1]. Закрылся он внезапно, без предупреждения, без возможности скачать хотя бы собственные опубликованные там материалы, теперь там просто заглушка вместо главной страницы [2].

Это довольно удручающая новость показывающая еще и уровень информационной культуры у создателей проектов основанных на материалах пользователей. В любой момент создали могут решить проект закрыть и невозможно получить собственные материалы.

Для сравнения, корпорация "Microsoft" 31 марта этого года объявила [3] о закрытии проекта хостинга открытого кода Codeplex и переносе собственных проектов на Github.
При этом они пообещали что:
• все материалы останутся на сайте в режиме для чтения с октября 2017;
• полностью сайт будет закрыт в декабре 2017;
• для переноса данных написано подробное руководство.

Итого, они предупредили за чуть менее чем 9 месяцев и достаточно время сохранить собственный код и не только. Например, команда Archiveteam уже успела отследить этот факт и отслеживает статус проекта [4]

Или, например, сервис закладов Ffound.com объявил о закрытии с 8 мая [5 ], хотя бы за 2 недели. Сейчас его также копируют участники ArchiveTeam.

Самые неприятные истории, конечно, похожи на историю с Имхонет. Например, после того как Яндекс продал хостинг Narod.ru компании uCOZ [6 ] этот хостинг сильно испортился и теперь на какой сайт на narod.ru не зайти, я вижу всегда длительную блокирующую просмотр материалов автоматическую видеорекламу.

Это вполне может быть признаком того что uCOZ нацелились на быструю монетизацию и судьба сайтов на бесплатном хостинге - это вопрос открытый.

Ссылки:
[1] https://roem.ru/29-04-2017/248903/imhonet-zakrylsya/
[2] http://imhonet.ru/
[3] https://blogs.msdn.microsoft.com/bharry/2017/03/31/shutting-down-CodePlex/
[4] http://www.archiveteam.org/index.php?title=CodePlex
[5] http://ffffound.com/
[6] https://yandex.ru/blog/company/57916

#digitalpreservation #archiving
Всем привет! Случилось страшное, архивируя все на свете я не успел заархивировать чат @begtinchat в котором обсуждаются новости на моем канале @begtin. Пара неверных движений в мобильном приложении и вместо добавления админа в чат, меня угораздило его удалить. Если Вам есть что обсудить по тем новостям о которых я пишу - открытые данные, открытое государство, приватность, данные вообще и государство в принципе - прошу, присоединяйтесь. Я же продолжу восстанавливать чат из архивов, надеюсь удалось сохранить хотя бы что-то. Все что удастся сохранить - будет доступно.
Проект SubsidyStories [1] по сбору и визуализации субсидий получаемых европейскими предприятиями. Много скрейперов для данных в XLS, XLSX, PDF и других форматах о чем рассказывают создатели проекта в блоге Open Knowledge International [2]

Простой и симпатичный проект с открытым кодом [3] вышедший из экосистемы OpenSpending.

Ссылки:
[1] http://subsidystories.eu/
[2] https://okfn.de/blog/2017/04/Making-EU-Data-Open/
[3] https://github.com/os-data/eu-structural-funds/

#opendata #openfinances
Национальный архив Великобритании в марте опубликовали Цифровую стратегию [1] в виде подробного документа описывающего развитие цифровых технологий с 2017 по 2019 годы [2]

Основные тезисы этой стратегии:
1. Записи переходят из физической формы в виртуальную
2. Цифровое сохранение сложная задача
3. Высокие ожидания
4. Изменения непрерывны
5. Цифровые навыки на вес золота

Если пересказать стратегию коротко то она звучит так.
- Мы учимся работать в цифровом мире.
- Мигрируем в облака и даем доступ исследователям для анализа данных.
- Открываем все что только возможно
- Создаем API для наших проектов

Там еще много всего и, конечно, у архивов есть давняя беда дефицита цифровых навыков и то что те кто реально собирает данные обо всем с архивами не делятся - ни спецслужбы, ни дата корпорации не сдают туда "награбленное и накопленное".

Поэтому до сих пор инструменты сбора данных несовершенны, для социальных сетей, для веб-сайтов и для многого другого.

Ссылки:
[1] https://www.nationalarchives.gov.uk/about/our-role/plans-policies-performance-and-projects/our-plans/digital-strategy/
[2] https://www.nationalarchives.gov.uk/documents/the-national-archives-digital-strategy-2017-19.pdf

#digitalpreservation
Instacart, онлайн сервис заказа и доставки еды на дом опубликовал датасет из 3 миллионов заказов за 2017 год . Подробнее в блоге Jeremy Stanley [1]

В наборе данных информация о времени заказа, его идентификатор и купленный продукт плюс дополнительная информация. Структуру данных можно посмотреть тут [2], а сами данные выгрузить тут [3].

В очередной раз привожу это как пример того что открытые данные публикует не только государство. Для исследовательских целей их предоставляют многие крупные интернет компании заинтересованные в том чтобы наиболее талантливые разработчики использовали их данные.

Ссылки:
[1] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
[2] https://gist.github.com/jeremystan/c3b39d947d9b88b3ccff3147dbcf6c6b
[3] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

#opendata #instacart
Свежая статья "The world’s most valuable resource is no longer oil, but data в The Economist о данных которые превратились в "новую нефть" [1] поднимает все более актуальную тему о том что деятельность транснациональных корпораций данных (data corporations) дает возможность им отслеживать другие компании и влиять на конкурентный рынок.

Статья поднимает важнейший вопрос соответствия государственных систем существующему мироустройству информационной эры или, как сейчас говорят, "цифровой экономики".

Ссылки:
[1] http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource

#data #dataeconomy
Кто-то отдыхает в праздники, а я публикую заметку о том как проходит архивация сайтов на примере Общественной палаты - https://medium.com/@ibegtin/oprf-archival-209d9b09af3

#digitatalpresevation #opengovernment #archiving