Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.

Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.

Насчет бенчмарков, тут хочется увидеть независимые оценки.

В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.

Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).

#opensource #datatools #dataengineering
👍93
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.

Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.

А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.

Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.

Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.

Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData

#opensource #datatools
👍75🙏21
Datatype симпатичный инструмент построения графиков реализованный в виде шрифта и превращающий текст в графики. Я такое ранее видел в sparks где тоже можно было делать минималистичные линейные графики с помощью шрифта, а тут более проработанный и зрелый продукт.

Казалось бы ерунда, но это не так поскольку дает возможность резкого ускорения подгрузки дашбордов, отчетов, графиков и иной визуализации за счет сокращения обращений к серверу, отсутствия подгружаемых изображений и так далее.

Там где считаются миллисекунды и где супер-пупер интерактивная визуализация не нужна - это прямо таки находка.

#opensource #dataviz
🔥16❤‍🔥43😁3
Open Design открытый (open source) продукт для создания дизайна и верстки сайтов и приложений. Сделан по аналогии с Claude Design, но можно использовать разных провайдеров через их командные строки или API . Настраиваемость очень высокая, можно использовать и локальные модели через Ollama или LM Studio или альтернативы.

В качестве примера я за 5 минут сделал альтернативную верстку для общественного каталога открытых данных hubofdata.ru который мы давно не обновляли, но который все еще жив. Специально привожу именно его в пример потому что показывать то чем реально занимаюсь никак не могу;)

Все примеры датасетов и организаций на макетах условны, все сделано на очень скорую руку.

Лично мне в текущей версии нехватило режима в стиле "Сделай 4 разных вида дизайна и отобрази их для сравнения". Но это в идеале, а текущее уже хорошо.

#opensource #ai #design
1👍104🔥2
ProgramBench интересный проект и исследование из Meta про проверке способности LLM не просто программировать, но и проектировать архитектуру приложений.

LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.

Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.

Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.

#opensource #ai #thoughts
👍6🔥21
Flowfile визуальный ETL инструмент внутри которого Polars и который создает код для Polars в процессе. Лицензия MIT, выглядит довольно неплохо, хотя и не охватывает большого числа возможностей других ETL.

Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.

#opensource #dataengineering #data #datatools
🔥9👍5❤‍🔥3🕊2
Data Landscape интерактивная визуализированная база знаний по стандартам работы с данными. Разделенные на группы рекомендуемых, ситуативных, интересных и не рекомендуемых.

Не буду утверждать что я со всеми классификациями согласен и считаю эту базу знаний полной, но она точно полезна.

Как минимум полезна в разговорах о том что использовать, а что не надо.

Открытый код, MIT лицензия.

#opensource #dataengineering
❤‍🔥7👍5🔥41
Вышел Quack от DuckDB протокол превращающий эту in-process локальную базу данных в серверный вариант. У меня лично и в мыслях не было использовать DuckDB как серверную СУБД, в моем понимании это скорее инструмент доступа к данным (query engine) чем база данных, но у меня свои кейсы, а других свои. Надо подумать как эти новые функции можно применить на практике.

#opensource #rdbms #datatools
👍11🔥3🌚2
Выступление Hannes Mühleisen на AI Council о DuckDB Quack (серверном протоколе для DuckDB) https://www.youtube.com/watch?v=L_lttD-d1wc

Интересно тем что он целенаправленно сравнивает DuckDB с PostgreSQL (отмечу что не с Clickhouse) и всячески их противопоставляет отчего возникает резонный вопрос можно ли действительно DuckDB теперь рассматривать как полноценную замену PostgreSQL ? Если да, то это потенциальное обновление множества технологических стеков. Как минимум даже серверная версия DuckDB гораздо легче в развертывании.

Видео длинное, но докладчик интересный. Тем кто интересуется развитием и применением СУБД для аналитики будет полезно.

#datatools #dataengineering #opensource
🤔104
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT

#opendata #opensource #ai
🔥5👍4
Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)

В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.

Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.

Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.

Если найдете там ошибки или будет чем дополнить - пишите сразу мне.

#opendata #datasets #opensource

Для всех кто занимается меж
👍54🔥3
Osiris open source продукт позиционируемый как альтернатива Palantir.

Включает отображение данных из множества слоев - конфликты, новости, уличные камеры, землетрясения и многое другое.

Я бы сказал что проект скорее "смазливый" чем какой-то другой. Очень подходящий для показа красивых картинок начальству или на каких-то экранах на выставках и очень далекий от практического применения. С развитием ИИ интерфейсы делать стало дешевле чем собрать и правильным образом интегрировать данные. А тут подключены не самые нужные данные, а те что хорошо подсвечены и доступны.

Тем не менее польза и от этого есть.

Код
под MIT, визуализация с помощью MapLibre

#opensource #analytics
🤔6❤‍🔥5🔥5🤨2
Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом

#opendata #opensource #ai #tools
5
Полезные ссылки про данные, технологии и не только:
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.

#opensource #data #tools
👍3