Ivan Begtin
9.02K subscribers
2.57K photos
5 videos
114 files
5.37K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я не раз писал о том что документирование датасетов вполне поддается автоматизации и некоторое количество раз экспериментировал с этим. Сейчас я в итоге обновил утилиту undatum к которой добавил команду doc с помощью которой можно сгенерировать описание набора данных в форматах markdown, yaml, json или text и так далее. Из плюсов - сразу готовая документация весьма подробная, из минусов - это документирование только на основе содержания файла без каких-либо дополнительных метаданных поэтому там нет инфы по происхождению (lineage) и метаданных источника.

Я пока думаю над тем чтобы эффективно интегрировать автоматическое документирование в Dateno, а это полезный инструмент для тех кто разбирается с "дикими файлами", недокументированными дата файлами.

#opendata #datasets #data #datadocumentation
👍62🔥21
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.

Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.

Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.

А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.

#dataengineering #readings #data
17🔥8👍5
Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.

#opendata #datasets #data #europe
👍41🔥1🤔1
В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.

Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).

Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.

#opensource #data #datatools #dataengineering
🔥10👍5😱1
Open Semantic Interchange (OSI) свежий индустриальный стартап описания данных в задачах дата аналитики. Подготовлен Snowflake вместе с Alation, Atlan, BlackRock, Blue Yonder, Cube, dbt Labs, Elementum AI, Hex, Honeydew, Mistral AI, Omni, RelationalAI, Salesforce, Select Star, Sigma и ThoughtSpot.

Официально опубликован он был ещё в сентябре 2025 г.

Явный акцент в нём на инструментах BI и спецификация явным образом определяет то как описывать таблицы для анализа данных и ИИ инструментов.

Чем-то он напоминает и пересекается со стандартами Frictionless Data (он про файлы), спецификацией Open Lineage, Data Description Specifications (DDS) (используется в среде IBM) и ряд других.

Новые спецификации это хорошо, насколько хороша эта поймем по мере её внедрения.

#opensource #openspecs #data
3👍2
talk-data.com чей-то симпатичный пэт проект в дата инженерной тусовке. Автор себя явно не выпячивает, но сделал базу лекторов и выступления про данные (современные дата инженерные и дата аналитические инструменты). Там спикеров 3000 из 713 компаний по 104 событиям и по 4483 темам. Например, 98 выступлений про DuckDB или 38 выступлений про Polars

Выглядит полезно для всех кто хочет погрузиться в одну или несколько тем по данным.

#data #events
145
Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.

Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.

Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.

#readings #data
🔥11👍31🤔1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная

#readings #data #ai #economics
🔥8
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon

#opensource #ai #data #readings
👍11