Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них, проект FairSharing [1] база стандартов, политик и баз данных/каталогов данных связанных с научными исследованиями.

В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций

Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.

Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.

Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.

Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.

При этом данные интегрированы с проектами Re3Data от DataCite и ROR.

Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.

Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/

#openaccess #opendata #fair #datastandards
Полезное чтение про ИИ, языковые модели и не только։
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом

- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.

- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.

- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.

- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.

Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/

#ai #readings
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.

Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.

Ссылки։
[1] https://begtin.substack.com/p/cb4

#opendata #un #datasets #blogging
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.

DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.

Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.

Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf

#opendata #dataset #economy #france #indicators
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]

Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.

Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.

Ссылки։
[1] https://publielectoral.lat/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://publielectoral.lat/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats

#startups #data #opendata
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.

Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.

Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.

Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.

При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.

Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.

Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html

#privacy #security #iot #google
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.

- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.

- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.

- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.

- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.

- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.

Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://publielectoral.lat/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/

#data #datatools #readings #technology
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.

Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].

Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.

Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats

#data #datatools #analytics
В рубрике как это работает у них, о том что не все форматы файлов для работы с данными сводятся к CSV, SQL, JSON и другим наиболее распространённым. На порталах открытых данных часто встречаются файлы в непривычных форматах, например PX [1], этот формат ещё называют PX-Axis потому что он используется в одноимённом программном продукте который позже переименовали в серию продуктов PxWeb, PxWin и PxEdit. PxWeb и PxWin были разработаны статистическим ведомством Швеции [2] и переведены, по большей части, в открытый код. А PxEdit сделали в статистическом ведомстве Финляндии [3].

Во многих странах и организациях собирающих статистику этот программный пакет весьма популярен. Например, в Испании на портале открытых данных страны в формате PX-Axis опубликовано 24 169 наборов данных [4]. Все эти файлы это индикаторы из национальных и региональных статистических систем. У многих регионов Испании они свои и практически все дают возможность получения данных показателей в разных форматах. Аналогично публикуются 7 131 статистический индикатор в Ирландии в виде наборов открытых данных на официальном портале [5] и, конечно же, непосредственно в Швеции, Финляндии и во многих других странах.

Столкнуться с этим форматом в России практически невозможно, российская статистика преимущественно использует свои внутренние форматы + некую версию SDMX. В других постсоветских странах, большая часть статистики публикуется только в Excel или самостоятельно разработанных информационных системах, вроде Талдау в Казахстане. Но если Вам доведётся поработать с данными в других странах, то с PX файлами можно столкнуться.

Ссылки։
[1] https://www.scb.se/en/services/statistical-programs-for-px-files/px-file-format/
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/
[3] https://www.stat.fi/tup/tilastotietokannat/px-tuoteperhe_en.html
[4] https://datos.gob.es/es/catalogo?res_format_label=PC-Axis
[5] https://data.gov.ie/dataset?res_format=PX

#opendata #datasets #fileformats #data
Интересные продукты, проекты и не только декларирующие использование AI, ChatGPT или схожие инструменты։
- Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком
- Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности
- The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов
- Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое.

Разное для чтения։
- Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей.
- Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год
- Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр.

Ссылки։
[1] https://www.buildt.ai/
[2] https://www.nostalgia.photo/
[3] https://huggingface.co/spaces/JammyMachina/the-jam-machine-app
[4] https://www.longshot.ai/features/longshot-fact-gpt
[5] https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
[6] https://sebastianraschka.com/blog/2023/open-source-highlights-2022.html
[7] https://latecheckout.substack.com/p/my-predictions-for-2023

#ai #data #readings #startups
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․

В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.

Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.

На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.

Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].

Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/

#opendata #datasets #uk #census
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.

Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.

Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7

Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)

#opendata #opendataday
В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)

Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.


Ссылки:
[1] https://open.usa.gov/national-action-plan/5/

#opendata #usa #policies
Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1].

Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.

Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.

Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.

P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github

Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars

#opensource #datatools #datengineering
Многие считают что слежка компаний за пользователями не имеет значения. "За всеми следят, ничего не случится если последят ещё и за мной" (с). Это очень распространённый аргумент среди тех кто не понимает как развиваются технологии.

Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1].

Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку.

Будем ждать новых подобных конфликтов в этом году.

Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом.

Ссылки։
[1] https://www.fastcompany.com/90831386/artists-accuse-adobe-tracking-design-ai

#ai #privacy
В рубрике полезных инструментов с открытым кодом для работы с данными Memphis [1], продукт по обработке очередей сообщений по аналогии с RabbitMQ и, частично, Kafka. Продукту как продукту всего год, при этом у него весьма обстоятельная документация, много пользователей и активная команда разработки с детальной дорожной картой. Судя по качеству и скорости проработки, явно уже нашли или ищут инвестиции под облачный сервис [2].

Я бы сказал что для опенсорс проекта они очень хорошо себя подают(продают), посмотреть точно стоит, даже при то что не все функции уже реализованы.

Ссылки:
[1] https://memphis.dev
[2] https://www.crunchbase.com/organization/memphis-dev

#opensource #datatools #dataengineering
В Новая Газета Европа подробный текст про исследование отъезда российских разработчиков из РФ на основе изменений в локации в аккаунтах на Github [1]. Метод неидеальный, поскольку многие меняют локацию не уезжая, а многие уехавшие не меняют, но вполне достойный внимания в контексте сравнения с другими странами.

И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний.

Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги.
1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников.
2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно.
3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали

Этого всего тоже недостаточно, но хоть что-то.

Ссылки։
[1] https://novayagazeta.eu/articles/2023/01/11/kod-na-iskhode

#policies #itmarket
Разные интересные свежие проекты с открытым кодом про данные и ИИ։
- gpt_index [1] библиотека для Python. На вход принимает коллекцию документов и на их основе даёт возможность делать к ним запросы естественным языком. Требует ключ для доступа к API OpenAI, использует модель text-davinci-003

- OpenAI Cookbook [2] коллекция рецептов по работе с продуктами/API OpenAI. Много примеров в формате Jupyter Notebook

- Papers we love [3] довольно давний открытый репозиторий научных статей про данные, ML, ИИ и всё что вокруг и рядом

- Lama Cleaner [4] довольно необычная штука позволяющая убирать закрашенные части с изображения. Например, если в паинтере нарисовать линии поверх фотографии то с помощью Lama Cleaner можно исходное изображение восстановить. Или не совсем исходное если было закрашено что-то целиком.

- AFFiNE [5] обещают альтернативу Miro и Notion с открытым кодом. Делает какая-то большая китайская команда, непонятно откуда инвестиции, но делают как-то очень бодро. Хотя и не видно пока возможностей аналогичных Miro, только неполная альтернатива Notion.

Ссылки։
[1] https://github.com/jerryjliu/gpt_index
[2] https://github.com/openai/openai-cookbook
[3] https://github.com/papers-we-love/papers-we-love
[4] https://github.com/Sanster/lama-cleaner
[5] https://affine.pro/

#opensource #ai #datatools