Ivan Begtin – Telegram

Ivan Begtin

9.16K subscribers

2.68K photos

5 videos

115 files

5.51K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk

Download Telegram

About

Blog

Apps

Platform

9.16K subscribers

SiriusDB специальный движок расширяющий инструменты работы с базами данных и ускоряющий выборки из баз данных используя GPU. Реализован в виде расширения для DuckDB и занимает первую позицию в оценке по Hot run в рейтинге ClickBench.

Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.

Требует для работы процессор NVIDIA и установленный CUDA.

Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.

#opensource #datatools

❤5👍4🤔1

1.62K viewsIvan Begtin, 06:01

Оказывается появилось множество инструментов работы с данными через WebAssembly, когда код загружается с сервера, но исполняется локально и работа со всеми данными идет локально. Причем почти все такие инструменты на базе DuckDB.

В списке уже:
- DataKit (открытый код и сервис)
- PondPilot (открытый код и сервис)
- OpenSheet (сервис и приложение для выгрузки локально)
- Tabula Studio (сервис)

А также большая подборка инструментов в списке Awesome DuckDB

Пора делать ревизию своего аналитического инструментария, многое можно делать быстрее и удобнее теперь

#opensource #datatools

PondPilot - Client-Side Data Tools

A suite of client-side data tools powered by DuckDB. Explore data and embed SQL widgets - all without uploading your data anywhere.

❤5🤔1

1.52K viewsIvan Begtin, 09:08

Prism от OpenAI - свежий их сервис по помощи исследователям в написании статей. Причем Prism помогает писать статьи сразу в LaTeX в облаке вместе с ИИ ассистентом. Фактически OpenAI одним махом сейчас поубивали десятки стартапов которые делали разные инструменты для помощи исследователям в научной работе. Собственно это главный риск у нишевых ИИ стартапов сейчас - быстрое их убийство крупняком если они чувствуют хороший потенциал в нише.

А я вот на эту тему задумался что скоро в рамках требований scientific integrity от исследователей будут требовать предоставлять протокол коммуникации с ИИ ассистентом вместе с научной работой чтобы верифицировать вклад самого исследователя и того что он не применял ИИ ассистента для подлога референсов, данных и так далее.

Впрочем Prism пока является инструментом скорее универсальным и в более узких областях больше вероятности специализированных ИИ ассистентов (физика, биоинформатика).

#ai #research #tools

❤9👍6🌚1

1.69K viewsIvan Begtin, edited 07:32

Open Semantic Interchange (OSI) свежий индустриальный стартап описания данных в задачах дата аналитики. Подготовлен Snowflake вместе с Alation, Atlan, BlackRock, Blue Yonder, Cube, dbt Labs, Elementum AI, Hex, Honeydew, Mistral AI, Omni, RelationalAI, Salesforce, Select Star, Sigma и ThoughtSpot.

Официально опубликован он был ещё в сентябре 2025 г.

Явный акцент в нём на инструментах BI и спецификация явным образом определяет то как описывать таблицы для анализа данных и ИИ инструментов.

Чем-то он напоминает и пересекается со стандартами Frictionless Data (он про файлы), спецификацией Open Lineage, Data Description Specifications (DDS) (используется в среде IBM) и ряд других.

Новые спецификации это хорошо, насколько хороша эта поймем по мере её внедрения.

#opensource #openspecs #data

❤3👍2

1.58K viewsIvan Begtin, 08:48

Я, тем временем, накатил большой объём изменений в библиотеку iterabledata библиотеку для чтения и обработки дата файлов в итеративном режиме, например, для задач конвертации и преобразования дата файлов. Там сейчас сильно больше поддерживаемых форматов помимо изначальных CSV, JSON, JSON lines и Parquet и много добавлений которых изначально не было. Новые форматы включают TopoJSON, GeoJSON, WARC, JSON-LD и десятки других.

Например:
- возможность массового преобразования файлов операциями bulk_convert
- поддержка чтения данных из баз данных также как из файлов с поддержкой MongoDB, Elasticsearch, Postgres и Clickhouse
- улучшенная идентификация файлов по magic number, а не только по расширению
- чтение файлов с уменьшением потребления оперативной памяти через использование ijson для чтения JSON файлов без полной загрузки в память
- прямое чтение файлов из S3, Azure и GCS
- экспорт данных в датафреймы Pandas, Polars и Dask

И ещё довольно много всего. Подробно в CHANGELOG.md

Всё это пока ещё надо допроверять, поэтому это не анонс релиза, а скорее преданонс изменений. Но в целом это перенос в библиотеку функций из утилиты undatum для преобразования данных. Библиотеку кода проще вставлять в конвееры данных чем утилиту командной строки.

В общем получилась хорошая штука для преобразования данных, удобная для собственных внутренних задач и не только. Осталось доприкручивать LLM'ки для задач анализа файлов и то что нужно.

Открытый код, лицензия MIT

#opensource #datatools

iterabledata/README.md at main · datenoio/iterabledata

Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata

✍13❤4

1.85K viewsIvan Begtin, 19:04

Ivan Begtin pinned «Я, тем временем, накатил большой объём изменений в библиотеку iterabledata библиотеку для чтения и обработки дата файлов в итеративном режиме, например, для задач конвертации и преобразования дата файлов. Там сейчас сильно больше поддерживаемых форматов помимо…»

19:43

talk-data.com чей-то симпатичный пэт проект в дата инженерной тусовке. Автор себя явно не выпячивает, но сделал базу лекторов и выступления про данные (современные дата инженерные и дата аналитические инструменты). Там спикеров 3000 из 713 компаний по 104 событиям и по 4483 темам. Например, 98 выступлений про DuckDB или 38 выступлений про Polars

Выглядит полезно для всех кто хочет погрузиться в одну или несколько тем по данным.

#data #events

❤14✍5

2.34K viewsIvan Begtin, edited 11:31

В рубрике интересных наборов данных, презентация от DataCite по их интерфейсам публикации данных в индексе регистрации научных данных. Включает описание REST API, других API, годовых дампов и ежемесячных файлов с изменениями.

Дампы они публикуют на AWS в JSONL формате сжатом Gzip.

Главный минус - отсутствие ссылок на сами файлы ресурсов, главный плюс - развесистые метаданные связанные с исследователями по каждому DOI

Из-за отсутствия ссылок на ресурсы - это недостаточно полезно для Dateno.

Однако для всех кто изучает регистрацию результатов научной деятельности это будет интересно.

#opendata #datasets

👍4❤1✍1

1.49K viewsIvan Begtin, 15:59

Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.

Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.

Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.

#readings #data

A lot of population numbers are fake

Do we have any idea how many people there are in the world?

🔥11👍3❤1🤔1

1.59K viewsIvan Begtin, 16:20

В рубрике состояния российских открытых данных, про data.gov.ru
- число наборов данных там уменьшается, было 7 тысяч с копейками, теперь снова меньше 7 тысяч
- новостей на сайте касательно его самого нет с июля 2025 г. и теперь нет новостей даже не относящихся к нему. Для сверки - https://data.gov.ru/news
- обсуждения отсутствуют https://data.gov.ru/discussions
- многих федеральных органов власти на портале нет (пример - Минкультуры РФ), причем тех которые продолжают публиковать данные
- по другим органам власти опубликованы данные от 5 до 13 летней давности (более новых нет)

Планета Шелезяка. Полезных ископаемых нет. Воды нет. Растительности нет. (с)

#opendata #russia

😢6🤣5💅4👏2🍌2

1.51K viewsIvan Begtin, 16:32

Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная

#readings #data #ai #economics

The agents are everywhere.

🔥8

1.42K viewsIvan Begtin, 16:07

Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon

#opensource #ai #data #readings

#mariadb #fosdem26 #fosdem #beneficialownership #opensource | Stephen Abbott Pugh

Tomorrow MariaDB (one of the most popular open source relational databases) is hosting a FOSDEM side event in Brussels with a talk entitled "Building the European cloud with MariaDB" being delivered by Nextcloud https://lnkd.in/eF5G2_Ke

#MariaDB has a commercial…

👍11

1.59K viewsIvan Begtin, 05:04

AI eats software world

Для тех кто интересуется состояние рынка софта на начало 2026 году я просто оставлю эту картинку здесь

Источник https://x.com/Speculator_io/status/2016956201884438863

#software #itmarket

🤔10😱6👍3🔥2

2.02K viewsIvan Begtin, 15:49

Разные мысли вслух, с некоторым повторением:
1. До того как произойдет AGI (если это вообще наступит) есть то что произойдет неизбежно - когда алгоритмы компьютерного зрения, анализа изображений и видео, анализа текстов, документов, ~~радиочастотного спектра~~ и тд. сильно превосходящее человека. Оно ИМХО уже могло бы произойти, но это может быть пугающим опытом когда это будет в потребительских устройствах или автоматизированных роботизированных платформах.
2. Когда появятся языки программирования с LLM в интерпретаторе и компиляторе, а не просто заточенные под LLM? Думаю что скоро
3. Где-то уже должен взлетать бизнес по ускоренному клонированию корпоративного ПО. Вайб кодить будут не внутри потребителей софта, а маленькие команды которые будут на заказ средних компаний клонировать продукты крупняка. Бигтехи будут защищены от этого интегрированностью продуктов и тем что они одновременно крупнейшие хостеры/ресурсопровайдеры
4. Наступит ли демократизация инструментов разрушения вместе с развитием роботизации? Умный ИИ может не атаковать инфраструктуру человечества напрямую (а ля Скайнет), а использовать прокси-террористов и анонимную коммуникацию и криптовалюту для оплаты

#thoughts

❤5✍3

1.55K viewsIvan Begtin, 17:00

Полезные ссылки про данные, технологии и не только:
- The Economics of the Modern Data Stack есть ощущение что сам термин Modern Data Stack уже уходит в прошлое, но тут любопытный разговор про ETL продукты с открытым кодом и про то что Matatika поглотили Meltano. Лично мне продукт Meltano нравился на каких-то ранних его стадиях когда они форкнулись из Gitlab, но дальше они как-то совсем провалили коммуникацию с сообществом. Причем я не могу понять как они такое умудрились.
- Antigravity Manager open source инструмент для управления аккаунтами для работы с Google Antigravity. Решает важную проблему с тем что работать с Antigravity с корпоративного аккаунта очень накладно и откровенно неудобно. Вообще Google сделали хороший продукт технически и весьма неудобный в части управления им. Инструмент на китайском языке почти полностью
- Inside OpenAI’s in-house data agent о том как с помощью дата агента работают с данными внутри OpenAI. Любопытны идеи, но повторять один в один такое не надо, то что могут позволить себе те у кого ресурсы не ограничены - это не для всех.

#readings #ai #data

LinkedIn Login, Sign in | LinkedIn

Login to LinkedIn to keep in touch with people you know, share ideas, and build your career.

👍5🔥2❤1

1.49K viewsIvan Begtin, 15:44

Forwarded from Dateno

New at Dateno: Python SDK, MCP Server, and What’s Coming Next

We started the year with several important updates that make working with Dateno even easier — especially for data scientists, developers, and teams building AI-driven products.

Python SDK for the Dateno API
We’ve released an official Python SDK that provides a simple and convenient way to work with the Dateno API. It significantly lowers the entry barrier for data scientists and analysts for whom Python is the primary working environment, and makes it easier to integrate dataset search into notebooks, pipelines, and production workflows.

To make onboarding as smooth and effective as possible, we’ve also published practical usage examples and guides on our documentation site. These examples are designed to help users get started quickly and apply the SDK in real-world scenarios.

Dateno MCP Server for AI integrations
We’ve also launched our own MCP (Model Context Protocol) server, enabling seamless integration of Dateno’s unique dataset search into AI and LLM-based solutions. This allows AI systems to discover relevant datasets programmatically and use structured metadata as part of their reasoning and generation workflows.

What’s next

We’re actively working on new native AI features in Dateno, focused on end users.

These upcoming capabilities will make dataset discovery, exploration, and reuse even more intuitive — without requiring custom integrations.

These updates are another step toward our goal: making high-quality datasets easier to find, understand, and use — for both humans and machines.

#dateno #dataengineering

🔥4👍2❤1✍1

1.6K viewsIvan Begtin, 16:11

Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR

Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все

В основном участники там - это университеты США входящие в ICPSR.

Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week

Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия

#opendata #opengov #events

👍11🔥4

2.05K viewsIvan Begtin, 07:02

Ivan Begtin pinned a photo

07:43

AliSQL новая СУБД с открытым кодом от Alibaba. Совместима с MySQL, внутри движок от DuckDB и есть векторный поиск.

Во первых то что MySQL это необычно в нынешнем мире захваченным PostgreSQL и использование DuckDB.

#opensource #rdbms

👍1

1.44K viewsIvan Begtin, 12:47