Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
👍9❤3
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
👍7✍5🙏2❤1
Datatype симпатичный инструмент построения графиков реализованный в виде шрифта и превращающий текст в графики. Я такое ранее видел в sparks где тоже можно было делать минималистичные линейные графики с помощью шрифта, а тут более проработанный и зрелый продукт.
Казалось бы ерунда, но это не так поскольку дает возможность резкого ускорения подгрузки дашбордов, отчетов, графиков и иной визуализации за счет сокращения обращений к серверу, отсутствия подгружаемых изображений и так далее.
Там где считаются миллисекунды и где супер-пупер интерактивная визуализация не нужна - это прямо таки находка.
#opensource #dataviz
Казалось бы ерунда, но это не так поскольку дает возможность резкого ускорения подгрузки дашбордов, отчетов, графиков и иной визуализации за счет сокращения обращений к серверу, отсутствия подгружаемых изображений и так далее.
Там где считаются миллисекунды и где супер-пупер интерактивная визуализация не нужна - это прямо таки находка.
#opensource #dataviz
🔥16❤🔥4❤3😁3
Open Design открытый (open source) продукт для создания дизайна и верстки сайтов и приложений. Сделан по аналогии с Claude Design, но можно использовать разных провайдеров через их командные строки или API . Настраиваемость очень высокая, можно использовать и локальные модели через Ollama или LM Studio или альтернативы.
В качестве примера я за 5 минут сделал альтернативную верстку для общественного каталога открытых данных hubofdata.ru который мы давно не обновляли, но который все еще жив. Специально привожу именно его в пример потому что показывать то чем реально занимаюсь никак не могу;)
Все примеры датасетов и организаций на макетах условны, все сделано на очень скорую руку.
Лично мне в текущей версии нехватило режима в стиле "Сделай 4 разных вида дизайна и отобрази их для сравнения". Но это в идеале, а текущее уже хорошо.
#opensource #ai #design
В качестве примера я за 5 минут сделал альтернативную верстку для общественного каталога открытых данных hubofdata.ru который мы давно не обновляли, но который все еще жив. Специально привожу именно его в пример потому что показывать то чем реально занимаюсь никак не могу;)
Все примеры датасетов и организаций на макетах условны, все сделано на очень скорую руку.
Лично мне в текущей версии нехватило режима в стиле "Сделай 4 разных вида дизайна и отобрази их для сравнения". Но это в идеале, а текущее уже хорошо.
#opensource #ai #design
1👍10✍4🔥2
ProgramBench интересный проект и исследование из Meta про проверке способности LLM не просто программировать, но и проектировать архитектуру приложений.
LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.
Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.
Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.
#opensource #ai #thoughts
LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.
Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.
Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.
#opensource #ai #thoughts
👍6🔥2❤1
Flowfile визуальный ETL инструмент внутри которого Polars и который создает код для Polars в процессе. Лицензия MIT, выглядит довольно неплохо, хотя и не охватывает большого числа возможностей других ETL.
Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.
#opensource #dataengineering #data #datatools
Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.
#opensource #dataengineering #data #datatools
🔥9👍5❤🔥3🕊2
Data Landscape интерактивная визуализированная база знаний по стандартам работы с данными. Разделенные на группы рекомендуемых, ситуативных, интересных и не рекомендуемых.
Не буду утверждать что я со всеми классификациями согласен и считаю эту базу знаний полной, но она точно полезна.
Как минимум полезна в разговорах о том что использовать, а что не надо.
Открытый код, MIT лицензия.
#opensource #dataengineering
Не буду утверждать что я со всеми классификациями согласен и считаю эту базу знаний полной, но она точно полезна.
Как минимум полезна в разговорах о том что использовать, а что не надо.
Открытый код, MIT лицензия.
#opensource #dataengineering
❤🔥7👍5🔥4✍1
Вышел Quack от DuckDB протокол превращающий эту in-process локальную базу данных в серверный вариант. У меня лично и в мыслях не было использовать DuckDB как серверную СУБД, в моем понимании это скорее инструмент доступа к данным (query engine) чем база данных, но у меня свои кейсы, а других свои. Надо подумать как эти новые функции можно применить на практике.
#opensource #rdbms #datatools
#opensource #rdbms #datatools
👍11🔥3🌚2
Выступление Hannes Mühleisen на AI Council о DuckDB Quack (серверном протоколе для DuckDB) https://www.youtube.com/watch?v=L_lttD-d1wc
Интересно тем что он целенаправленно сравнивает DuckDB с PostgreSQL (отмечу что не с Clickhouse) и всячески их противопоставляет отчего возникает резонный вопрос можно ли действительно DuckDB теперь рассматривать как полноценную замену PostgreSQL ? Если да, то это потенциальное обновление множества технологических стеков. Как минимум даже серверная версия DuckDB гораздо легче в развертывании.
Видео длинное, но докладчик интересный. Тем кто интересуется развитием и применением СУБД для аналитики будет полезно.
#datatools #dataengineering #opensource
Интересно тем что он целенаправленно сравнивает DuckDB с PostgreSQL (отмечу что не с Clickhouse) и всячески их противопоставляет отчего возникает резонный вопрос можно ли действительно DuckDB теперь рассматривать как полноценную замену PostgreSQL ? Если да, то это потенциальное обновление множества технологических стеков. Как минимум даже серверная версия DuckDB гораздо легче в развертывании.
Видео длинное, но докладчик интересный. Тем кто интересуется развитием и применением СУБД для аналитики будет полезно.
#datatools #dataengineering #opensource
YouTube
DuckDB-Quack announcement at AI Council
Slides: https://blobs.duckdb.org/slides/hannes-muehleisen-quack-ai-council-2026.pdf
🤔10✍4
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT
#opendata #opensource #ai
www.federaldatafieldguide.us
The Federal Data Field Guide
🔥5👍4
Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)
В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.
Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.
Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.
Если найдете там ошибки или будет чем дополнить - пишите сразу мне.
#opendata #datasets #opensource
Для всех кто занимается меж
В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.
Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.
Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.
Если найдете там ошибки или будет чем дополнить - пишите сразу мне.
#opendata #datasets #opensource
Для всех кто занимается меж
GitHub
Release v1.1.2 · datenoio/internacia-db
Added
International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...
International blocks expansion from merged Manus + Perplexity gap analysis across agreement, intorg, forum, political, military, bank, food, environment, geographic, economic, and armscontro...
👍5❤4🔥3
Osiris open source продукт позиционируемый как альтернатива Palantir.
Включает отображение данных из множества слоев - конфликты, новости, уличные камеры, землетрясения и многое другое.
Я бы сказал что проект скорее "смазливый" чем какой-то другой. Очень подходящий для показа красивых картинок начальству или на каких-то экранах на выставках и очень далекий от практического применения. С развитием ИИ интерфейсы делать стало дешевле чем собрать и правильным образом интегрировать данные. А тут подключены не самые нужные данные, а те что хорошо подсвечены и доступны.
Тем не менее польза и от этого есть.
Код под MIT, визуализация с помощью MapLibre
#opensource #analytics
Включает отображение данных из множества слоев - конфликты, новости, уличные камеры, землетрясения и многое другое.
Я бы сказал что проект скорее "смазливый" чем какой-то другой. Очень подходящий для показа красивых картинок начальству или на каких-то экранах на выставках и очень далекий от практического применения. С развитием ИИ интерфейсы делать стало дешевле чем собрать и правильным образом интегрировать данные. А тут подключены не самые нужные данные, а те что хорошо подсвечены и доступны.
Тем не менее польза и от этого есть.
Код под MIT, визуализация с помощью MapLibre
#opensource #analytics
🤔6❤🔥5🔥5🤨2
Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом
#opendata #opensource #ai #tools
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом
#opendata #opensource #ai #tools
Redistricting Data Hub
We have all the redistricting data you need to draw or analyze Community of Interest or District maps
✍5
Полезные ссылки про данные, технологии и не только:
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.
#opensource #data #tools
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.
#opensource #data #tools
GitHub
GitHub - microsoft/coreutils: Coreutils for Windows: Installer & Packaging
Coreutils for Windows: Installer & Packaging. Contribute to microsoft/coreutils development by creating an account on GitHub.
👍3