Ivan Begtin
9.01K subscribers
2.58K photos
5 videos
114 files
5.38K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.

Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).

Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.

#opensource #data #datatools #dataengineering
🔥10👍5😱1
Open Semantic Interchange (OSI) свежий индустриальный стартап описания данных в задачах дата аналитики. Подготовлен Snowflake вместе с Alation, Atlan, BlackRock, Blue Yonder, Cube, dbt Labs, Elementum AI, Hex, Honeydew, Mistral AI, Omni, RelationalAI, Salesforce, Select Star, Sigma и ThoughtSpot.

Официально опубликован он был ещё в сентябре 2025 г.

Явный акцент в нём на инструментах BI и спецификация явным образом определяет то как описывать таблицы для анализа данных и ИИ инструментов.

Чем-то он напоминает и пересекается со стандартами Frictionless Data (он про файлы), спецификацией Open Lineage, Data Description Specifications (DDS) (используется в среде IBM) и ряд других.

Новые спецификации это хорошо, насколько хороша эта поймем по мере её внедрения.

#opensource #openspecs #data
3👍2
talk-data.com чей-то симпатичный пэт проект в дата инженерной тусовке. Автор себя явно не выпячивает, но сделал базу лекторов и выступления про данные (современные дата инженерные и дата аналитические инструменты). Там спикеров 3000 из 713 компаний по 104 событиям и по 4483 темам. Например, 98 выступлений про DuckDB или 38 выступлений про Polars

Выглядит полезно для всех кто хочет погрузиться в одну или несколько тем по данным.

#data #events
145
Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.

Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.

Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.

#readings #data
🔥11👍31🤔1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная

#readings #data #ai #economics
🔥8
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon

#opensource #ai #data #readings
👍11
Полезные ссылки про данные, технологии и не только:
- The Economics of the Modern Data Stack есть ощущение что сам термин Modern Data Stack уже уходит в прошлое, но тут любопытный разговор про ETL продукты с открытым кодом и про то что Matatika поглотили Meltano. Лично мне продукт Meltano нравился на каких-то ранних его стадиях когда они форкнулись из Gitlab, но дальше они как-то совсем провалили коммуникацию с сообществом. Причем я не могу понять как они такое умудрились.
- Antigravity Manager open source инструмент для управления аккаунтами для работы с Google Antigravity. Решает важную проблему с тем что работать с Antigravity с корпоративного аккаунта очень накладно и откровенно неудобно. Вообще Google сделали хороший продукт технически и весьма неудобный в части управления им. Инструмент на китайском языке почти полностью
- Inside OpenAI’s in-house data agent о том как с помощью дата агента работают с данными внутри OpenAI. Любопытны идеи, но повторять один в один такое не надо, то что могут позволить себе те у кого ресурсы не ограничены - это не для всех.

#readings #ai #data
👍5🔥21
The Better Deal for Data Standard свежий стандарт по управлению данными (data governance) для социального и некоммерческого сектора. Написан в НКО Technology Matters из США и там почти все про организацию сбора и хранения данных, без какого-либо технического погружения.

Это полезный текст для тех кто ищет ответ что делать с управлением данными в НКО, но надо понимать что законодательство он вообще никак не учитывает и стандарт управления данными в США для НКО и для стран ЕС и для РФ и для других стран будут разные. Кстати, на мой взгляд, авторы сделали большое упущение сразу начав писать стандарт. Тут вначале надо формулировать принципы.

#data #datagovernance #datamanagement
🔥3👍1
Я тут уже не раз рассказывал про то как работаю над реестром каталогов данных который воплотился в Dateno registry и который доступен в открытом репозитории.

Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.

По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.

Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.

На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.

Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.

Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.

#opendata #datasets #dateno #data #datacatalogs
👍12❤‍🔥3🔥31