Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных продуктов для работы с данными PuppyGraph [1] (Щенячий граф) стартап и open-source продукт для взаимодействия с SQL базами данных с помощью графовых языков запросов таких как Gremlin и openCypher.

Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.

Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.

Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc

#opensource #rdbms #datatools
👍75
JSONBench [1] свежий бенчмарк для аналитических баз данных работающих с JSON от команды ClickHouse. Ожидаемо в бенчмарке ClickHouse на первых местах ;), но надо отдать им должное, в блоге у них подробный методологический рассказ про это [2] и конкуренты могут прийти и возразить обоснованно, если, конечно, придут.

Сам бенчмарк основан на датасете размером в 482GB в несжатом виде событий из соцсети BlueSky. В сжатом с помощью zstd виде они занимают 124GB, а в ClickHouse 99GB и 622GB в PostgreSQL.

Споры тут могут быть, в основном, исходя из моделей использования и подходов. К примеру, у DuckDB есть тип данных JSON, но в целом с его помощью можно работать с JSON файлами как с таблицами и импортировать их не в JSON тип, а сразу развертывать в табличную форму.

Что я лично и сделал бы с этими данными BlueSky вначале преобразовав из в Parquet.

С другой стороны способность ClickHouse работать с JSON объектами явно растёт и с той точки измерений что они проводили - это хороший тест.

Ссылки:
[1] https://jsonbench.com/
[2] https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

#clickhouse #postgresql #mongodb #duckdb #benchmark #json #rdbms
👍9👌1
Полезные ссылки про данные, технологии и не только:
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Meta про уличную магию про использование жестов для управления устройствами. Помимо того что это может поменять многое в обыденной жизни тут ещё и много открытых наборов данных Я думал такие устройства будут делать в виде тонких перчаток, а оказывается что можно в виде браслета.
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB

Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake

#opensource #rdbms #postgresql #duckdb #datatools
4👍1
Вышла новая версия Duckdb 1.2.0 [1] что важно - это существенная оптимизация скорости чтения данных. Пишут что обновили парсер для CSV [2] ускорив его до 15% и общие ускорение на 13% по тестам TPC-H SF100.

Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.

Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.

Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260

#opensource #duckdb #datatools #rdbms
🔥12👍1
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]

Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html

#opensource #ai #data #datatools #rdbms
6👍2
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0

Не удалось найти какой движок внутри, похоже какой-то собственный.

Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.

Даже странно что он не так уж популярен.

Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com

#opensource #rdbms #data #datatools
👍72
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.

На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.

#duckdb #rdbms #datatools
🔥144
Полезные ссылки про данные, технологии и не только:

Открытый код

- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).

ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок

Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).

#opensource #ai #api #rdbms
👍633😱1
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.

#opensource #tools #ai #notetaking #aiagents #rdbms
53❤‍🔥1🔥1
Я чуть было это не пропустил, а оказывается в конце августа Microsoft передали в Linux Foundation выложенную в открытый код DocumentDB, NoSQL базу данных совместимую с MongoDB. Под свободной лицензией MIT, что выгодно отличает от самой MongoDB под превдо-открытой лицензией SSPL.

Документации там ещё скудновато, уровень совместимости с API MongoDB до конца не понятен, но он вроде как неплохой, поскольку основные операции в MongoDB там должны поддерживаться.

DocumentDB внутри работает на PostgresSQL и самая простая установка его через Docker (не самая правильная быть может), но есть и альтернативы. Непонятно что пока там с API из коробки, MongoDB в редакции сообщества не развивалось в сторону предоставления GraphQL по умолчанию, например, и API там было упрощённое, хочется надеяться что в будет дорожная карта где такое прояснится.

А вообще это всё напоминает историю с Elasticsearch vs OpenSearch.

#opensource #rdbms #data #tools
4👍3🤔1
Периодически посматриваю видео с семинаров Future Data Systems Seminar Series — Fall 2025 которые проводят CMU Database Group и там выступают фаундеры и ключевые разработчики многих современных дата продуктов и технологий работы с данными, вроде Russel Spitzer, руководителя проекта Apache Iceberg и др.

А из последнего интересного это выступление Уилла Маннинга Vortex: LLVM for File Formats где он рассказывает про формат хранения данных Vortex, чем он отличается от Parquet и он очень структурировано рассказывает эволюцию современных СУБД, использование современного железа включая GPU в контексте данных и появление множества более современных чем Parquet форматов файлов для хранения данных. А их много, кроме Vortex ещё есть f3, FastLanes, Nimble, AnyBlox

У vortex'а есть расширение для DuckDB и его можно попробовать на своих данных.

Лично я жду когда в DuckDB появится поддержка большего числа новых форматов, как минимум Fastlane и бенчмарков на их сравнение.

#rdbms #opensource #databases
8
Полезные ссылки про данные, технологии и не только:
- quackstore расширение для DuckDB для кеширования облачных дата файлов, позволяет сильно ускорить выполнение запросов к облачным файлам благодаря их частичному сохранению. Полезная штука, её можно бы и сразу внутрь DuckDB ибо логично
- Catalog of Patterns of Distributed Systems для тех разработчиков кто хотят не только кодировать, но и двигаться в сторону архитектуры ПО.
- The Data Engineering Agent is now in preview Гугл запустили ИИ агента для дата инженеров внутри BigQuery, конечно же на базе Gemini. Дайте мне такой же только с открытым кодом и без инфраструктуры Google и с поддержкой всех основных инструментов и СУБД!
- Diseño del V Plan de Gobierno Abierto 2025-2029 5-й план по открытости гос-ва опубликовали власти Испании. Сейчас проходят публичные консультации и далее он будет утвержден. Открытые данные там, конечно же, присутствуют

#opendata #opensource #rdbms #datatools #dataengineering #ai
🔥42