Разного рода накопившиеся технологические размышления и не только:

1. Читаю много размышлений о том что моделирование данных отмирает, из последнего [1], автор пишет
о том что у этой ниши нет бизнес модели и все активно ломанулись в направлении озер данных и отсюда столько болот данных (data swamps). Рассуждения обоснованные, а вот стенания нет. Моделирования данных никуда не исчезает, оно перестаёт быть вещью в себе и становится частью чего-то большего. Например, прослеживаемости данных (data lineage) и контроля качества и наблюдаемости (data quality и data observability) которые хотя и часто упоминаются в формате хайпа на грани булшита. А самое главное важно помнить что данных сейчас производится значительно больше чем даже десятилетие назад. Осуществлять тщательное моделирование всего практически невозможно, поэтому дата-команды определяют ключевое и уделяют этому много внимания, а остальное, действительно, часто находится в болоте данных.

2. Вижу всё более распространённую связку rust + python. На rust переписывают модули ранее написанные для Python или пишут их с нуля и делают очень быстрыми. Пример, connector-x [2] библиотека для быстрой загрузки датафреймов из СУБД в Pandas и иные движки для датафреймов․ Реально быстрый движок. И таких примеров много. Хочешь чтобы твой код на Python работал быстро? Перепиши его или зависимые библиотеки на Rust!

3. Вижу явный тренд когда в вакансиях дата инженеров, аналитиков и дата сайентистов начинают чуть ли не первым пунктом писать "Навык документирования своей работы". У меня не хватает слов передать насколько это реально проблема для программистов, разработчиков баз данных, инженеров данных и всех остальных это реально делать. Это не софт скилл уже, а хард скилл высокого порядка. И беда в том что этому не учат, хотя среднего уровня разработчик способный и привычный документировать свою работу не в пример ценнее высококвалифицированного после ухода которого разваливается всё потому что никто не знает что делать с оставшимся унаследованным кодом.

4. О софт скиллах и открытых проектах, вижу как взлетают и падают опенсорсные проекты по автоматизации чего-либо по модели: "открытый код можно скачать, а ещё мы предлагаем наш продукт как облачный с нашей крутой поддержкой". Так вот взлетают продукты с мощными сообществами и падают продукты с плохой коммуникацией. Вижу такие примеры успеха с dbt или Datahub и вижу противоположное с Splitgraph и Qri. Это из тех кто у меня на виду прямо сейчас. В то же время размер сообщества вообще не показатель его активности. Например, в сообществе Open Data Community в Slack 6641 участник, что довольно много. Но активность там - одно сообщение в месяц, что совсем мало. Очень многое зависит от организаторов сообществ, наличия общих тем и наличия потребности в коммуникации.


Ссылки:
[1] https://medium.com/@chris.jackson_46175/so-who-killed-data-modelling-f39f711c68
[2] https://github.com/sfu-db/connector-x

#thoughts #data #startups