SiriusDB специальный движок расширяющий инструменты работы с базами данных и ускоряющий выборки из баз данных используя GPU. Реализован в виде расширения для DuckDB и занимает первую позицию в оценке по Hot run в рейтинге ClickBench.
Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.
Требует для работы процессор NVIDIA и установленный CUDA.
Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.
#opensource #datatools
Иначе говоря - даёт мощное ускорение выполнению SQL запросов за счет GPU процессора.
Требует для работы процессор NVIDIA и установленный CUDA.
Выглядит любопытно и соответствует тренду на то что скоро все СУБД будут проектироваться по использование графических процессоров и иных процессоров для ускорения обработки данных и запросов.
#opensource #datatools
❤5👍4🤔1
Оказывается появилось множество инструментов работы с данными через WebAssembly, когда код загружается с сервера, но исполняется локально и работа со всеми данными идет локально. Причем почти все такие инструменты на базе DuckDB.
В списке уже:
- DataKit (открытый код и сервис)
- PondPilot (открытый код и сервис)
- OpenSheet (сервис и приложение для выгрузки локально)
- Tabula Studio (сервис)
А также большая подборка инструментов в списке Awesome DuckDB
Пора делать ревизию своего аналитического инструментария, многое можно делать быстрее и удобнее теперь
#opensource #datatools
В списке уже:
- DataKit (открытый код и сервис)
- PondPilot (открытый код и сервис)
- OpenSheet (сервис и приложение для выгрузки локально)
- Tabula Studio (сервис)
А также большая подборка инструментов в списке Awesome DuckDB
Пора делать ревизию своего аналитического инструментария, многое можно делать быстрее и удобнее теперь
#opensource #datatools
PondPilot Blog
PondPilot - Client-Side Data Tools
A suite of client-side data tools powered by DuckDB. Explore data and embed SQL widgets - all without uploading your data anywhere.
❤5🤔1
Я, тем временем, накатил большой объём изменений в библиотеку iterabledata библиотеку для чтения и обработки дата файлов в итеративном режиме, например, для задач конвертации и преобразования дата файлов. Там сейчас сильно больше поддерживаемых форматов помимо изначальных CSV, JSON, JSON lines и Parquet и много добавлений которых изначально не было. Новые форматы включают TopoJSON, GeoJSON, WARC, JSON-LD и десятки других.
Например:
- возможность массового преобразования файлов операциями bulk_convert
- поддержка чтения данных из баз данных также как из файлов с поддержкой MongoDB, Elasticsearch, Postgres и Clickhouse
- улучшенная идентификация файлов по magic number, а не только по расширению
- чтение файлов с уменьшением потребления оперативной памяти через использование ijson для чтения JSON файлов без полной загрузки в память
- прямое чтение файлов из S3, Azure и GCS
- экспорт данных в датафреймы Pandas, Polars и Dask
И ещё довольно много всего. Подробно в CHANGELOG.md
Всё это пока ещё надо допроверять, поэтому это не анонс релиза, а скорее преданонс изменений. Но в целом это перенос в библиотеку функций из утилиты undatum для преобразования данных. Библиотеку кода проще вставлять в конвееры данных чем утилиту командной строки.
В общем получилась хорошая штука для преобразования данных, удобная для собственных внутренних задач и не только. Осталось доприкручивать LLM'ки для задач анализа файлов и то что нужно.
Открытый код, лицензия MIT
#opensource #datatools
Например:
- возможность массового преобразования файлов операциями bulk_convert
- поддержка чтения данных из баз данных также как из файлов с поддержкой MongoDB, Elasticsearch, Postgres и Clickhouse
- улучшенная идентификация файлов по magic number, а не только по расширению
- чтение файлов с уменьшением потребления оперативной памяти через использование ijson для чтения JSON файлов без полной загрузки в память
- прямое чтение файлов из S3, Azure и GCS
- экспорт данных в датафреймы Pandas, Polars и Dask
И ещё довольно много всего. Подробно в CHANGELOG.md
Всё это пока ещё надо допроверять, поэтому это не анонс релиза, а скорее преданонс изменений. Но в целом это перенос в библиотеку функций из утилиты undatum для преобразования данных. Библиотеку кода проще вставлять в конвееры данных чем утилиту командной строки.
В общем получилась хорошая штука для преобразования данных, удобная для собственных внутренних задач и не только. Осталось доприкручивать LLM'ки для задач анализа файлов и то что нужно.
Открытый код, лицензия MIT
#opensource #datatools
GitHub
iterabledata/README.md at main · datenoio/iterabledata
Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata
✍13❤4
Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.
#tools #datatools #opensource #dataengineering
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.
#tools #datatools #opensource #dataengineering
GitHub
GitHub - villagesql/villagesql-server: VillageSQL - a drop-in replacement for MySQL with extensions
VillageSQL - a drop-in replacement for MySQL with extensions - villagesql/villagesql-server
🔥5🤔1
Zvec свежая замена Sqlite в задачах векторного поиска и RAG. Выложено Alibaba под лицензией Apache 2.0. В моем понимании это прямая альтернатива LanceDB, но LanceDB пока выглядит интереснее.
#opensource #datatools #dataengineering
#opensource #datatools #dataengineering
🔥5👍3
Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
GitHub
GitHub - roostorg/osprey: Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time…
Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time event processing at scale. - roostorg/osprey
👍3🔥3❤1
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
👍6🔥5
В рубрике как это устроено у них.
Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.
Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.
Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).
#opendata #datasets #openaccess #denmark #datatools
Датский портал с данными исследований forskningsportal.dk включает более миллиона публикаций разделенных на глобальный и локальный реестры. Пока без исследовательских данных, только статьи, главы книг и другие материалы классифицированные по множеству классификационных моделей: OECD FORD, UN SDG, AU NZ/FOR и паре датских научных классификаторов.
Внутри какая-то своя разработка, не один из глобальных коммерческих провайдеров.
Открытых научных данных пока нет, но обещают их скоро добавить. А сами данные базы статей доступны в виде дампов в XML в формате DDF-MXD (Danish Research Database Metadata Exchange Format).
#opendata #datasets #openaccess #denmark #datatools
👍2✍1🔥1
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.
#opensource #datatools #duckdb #dataengineering
#opensource #datatools #duckdb #dataengineering
🔥6❤5
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекаявнимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
GitHub
GitHub - mindsdb/anton: AI coworker
AI coworker. Contribute to mindsdb/anton development by creating an account on GitHub.
👍6🔥5✍3❤1
Полезное чтение про данные, технологии и не только:
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.
Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.
Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python
#opendata #ai #datatools #readings
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.
Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.
Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python
#opendata #ai #datatools #readings
❤3⚡3👍2🔥2
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
GitHub
GitHub - Kanaries/pygwalker: PyGWalker: Turn your dataframe into an interactive UI for visual analysis
PyGWalker: Turn your dataframe into an interactive UI for visual analysis - Kanaries/pygwalker
👍8✍5🔥5
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
ArcKit
ArcKit - The Enterprise Architecture Governance Harness
One governance harness that wraps your AI coding assistant for systematic, compliant, audit-ready architecture governance. UK Government baseline plus community jurisdiction and sector overlays (EU, France, Austria, Canada, UAE, Australia, USA, UK Finance…
👍4🔥2
Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
👍9❤3
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
👍7✍5🙏2❤1
Flowfile визуальный ETL инструмент внутри которого Polars и который создает код для Polars в процессе. Лицензия MIT, выглядит довольно неплохо, хотя и не охватывает большого числа возможностей других ETL.
Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.
#opensource #dataengineering #data #datatools
Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.
#opensource #dataengineering #data #datatools
🔥9👍5❤🔥3🕊2
Вышел Quack от DuckDB протокол превращающий эту in-process локальную базу данных в серверный вариант. У меня лично и в мыслях не было использовать DuckDB как серверную СУБД, в моем понимании это скорее инструмент доступа к данным (query engine) чем база данных, но у меня свои кейсы, а других свои. Надо подумать как эти новые функции можно применить на практике.
#opensource #rdbms #datatools
#opensource #rdbms #datatools
👍11🔥3🌚2
Выступление Hannes Mühleisen на AI Council о DuckDB Quack (серверном протоколе для DuckDB) https://www.youtube.com/watch?v=L_lttD-d1wc
Интересно тем что он целенаправленно сравнивает DuckDB с PostgreSQL (отмечу что не с Clickhouse) и всячески их противопоставляет отчего возникает резонный вопрос можно ли действительно DuckDB теперь рассматривать как полноценную замену PostgreSQL ? Если да, то это потенциальное обновление множества технологических стеков. Как минимум даже серверная версия DuckDB гораздо легче в развертывании.
Видео длинное, но докладчик интересный. Тем кто интересуется развитием и применением СУБД для аналитики будет полезно.
#datatools #dataengineering #opensource
Интересно тем что он целенаправленно сравнивает DuckDB с PostgreSQL (отмечу что не с Clickhouse) и всячески их противопоставляет отчего возникает резонный вопрос можно ли действительно DuckDB теперь рассматривать как полноценную замену PostgreSQL ? Если да, то это потенциальное обновление множества технологических стеков. Как минимум даже серверная версия DuckDB гораздо легче в развертывании.
Видео длинное, но докладчик интересный. Тем кто интересуется развитием и применением СУБД для аналитики будет полезно.
#datatools #dataengineering #opensource
YouTube
DuckDB-Quack announcement at AI Council
Slides: https://blobs.duckdb.org/slides/hannes-muehleisen-quack-ai-council-2026.pdf
🤔10✍4
Полезные ссылки про данные, технологии и не только:
- dagster price increase 10x insane , don't ever use them тред на Reddit о том как Dagster подняли в 10 раз цены на их облачный сервис. Для тех кто не знает - Dagster это такой ETL/ELT продукт с открытым кодом по модели SaaS когда бесплатно открытый код и платно когда используешь в облаке. И вот они подняли цены в 10 раз. Продукт удобный, но с таким отношением я бы и от open source версии отказался. У них код под лицензией Apache 2.0 и хочется надеяться что кто-то его форкнет и начнет развивать альтернативу если они еще и open source код начнут портить.
- We had to build new evals for Fable обзор модели Fable 5 для задач дата аналитики от ребят из команды Hex (облачный сервис аналитических тетрадок). Если коротко то это хорошо, но недешево. Полезный обзор
#readings #ai #datatools
- dagster price increase 10x insane , don't ever use them тред на Reddit о том как Dagster подняли в 10 раз цены на их облачный сервис. Для тех кто не знает - Dagster это такой ETL/ELT продукт с открытым кодом по модели SaaS когда бесплатно открытый код и платно когда используешь в облаке. И вот они подняли цены в 10 раз. Продукт удобный, но с таким отношением я бы и от open source версии отказался. У них код под лицензией Apache 2.0 и хочется надеяться что кто-то его форкнет и начнет развивать альтернативу если они еще и open source код начнут портить.
- We had to build new evals for Fable обзор модели Fable 5 для задач дата аналитики от ребят из команды Hex (облачный сервис аналитических тетрадок). Если коротко то это хорошо, но недешево. Полезный обзор
#readings #ai #datatools
Reddit
From the dataengineering community on Reddit
Explore this post and more from the dataengineering community
👍3
OpenSharing свежий стандарт/протокол/спецификация по обмену данными и другими цифровыми артефактами для работы ИИ агентов включая таблицы, коллекции файлов, схемы, глоссарии и так далее. Был передан компанией Databricks в Linux Foundation и основан на уже активно используемом протоколе Delta Sharing к которому уже есть действующая экосистема и множество продуктов его поддерживают.
Передача его в Linux Foundation - это хорошо, это позволяет расширить экосистему. Хочется надеяться что появятся еще и open source реализации серверной части delta sharing, чтобы не зависеть от облака Databricks.
#opensource #standards #ai #tools #datatools
Передача его в Linux Foundation - это хорошо, это позволяет расширить экосистему. Хочется надеяться что появятся еще и open source реализации серверной части delta sharing, чтобы не зависеть от облака Databricks.
#opensource #standards #ai #tools #datatools
✍4👍4🔥4👏1