В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
✍3🔥2
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
👍6🔥5
В рубрике полезных ссылок про данные, технологии и не только, подборка Text-to-SQL решений:
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)
#opensource #ai #texttosql #sql
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)
#opensource #ai #texttosql #sql
GitHub
GitHub - FalkorDB/QueryWeaver: An open-source Text2SQL tool that transforms natural language into SQL using graph-powered schema…
An open-source Text2SQL tool that transforms natural language into SQL using graph-powered schema understanding. Ask your database questions in plain English, QueryWeaver handles the weaving. - Fal...
❤5👍4
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.
Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?
Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"
И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .
#opensource #ai
Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?
Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"
И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .
#opensource #ai
🔥4
То что в России признали Калифорнийский университет Беркли нежелательной организацией - это, конечно, нечто кафкианское поскольку даже если это не затрагивает большую часть их open source проектов (там лицензии, нет формального взаимодействия), но это может привести к тому что если кто-то контрибьютит в репозитории университета или участвует в любой их разработке идущей от организации - это может быть истолковано российскими силовыми органами как участие в деятельности нежелательной организации.
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
💯15😢8💅5👍2
Ещё один инструмент для работы с базами данных использующий DuckDB WASM - dbx lite. Запускается через браузер, работает с данными локально, внутри браузера пользователя.
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
⚡3👍2✍1
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали код полностью и выпустил его под MIT лицензией вместо оригинальной LGPL
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Tuan-Anh Tran
Relicensing with AI-assisted rewrite
Exploring the chardet v7.0.0 controversy: Can an AI rewrite legally 'launder' a library from LGPL to MIT?
🤨8😢6✍3😐2❤1🔥1💅1
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.
#opensource #datatools #duckdb #dataengineering
#opensource #datatools #duckdb #dataengineering
🔥6❤5
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
🔥6✍2👍2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM
#opensource #ai
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM
#opensource #ai
Kagi
Kagi Translate
Kagi Translate uses powerful AI models to instantly and accurately translate any content in any language.
1👍10❤1
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
Electronic Frontier Foundation
Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record
Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet
👍2🔥2❤1
Знаете ли вы что... в Германии существует инициатива Deutchland-Stack как список обязательных и рекомендуемых открытых стандартов и технологий для использования в государственном секторе. Там есть множество стандартов по самым разным категориям: данные, low-code, интеграция, AI, транспортные протоколы и многое другое. Довольно хорошо описанные, оформленные и почти все с открытым кодом (кроме iOS для Apple)
Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код
#opensource #germany #eu #standards
Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код
#opensource #germany #eu #standards
👍11✍7🔥4❤🔥2❤1🤔1
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекаявнимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
GitHub
GitHub - mindsdb/anton: AI coworker
AI coworker. Contribute to mindsdb/anton development by creating an account on GitHub.
👍6🔥5✍3❤1
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.
Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте
И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL
Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.
Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.
#opendata #governmenttransparence #opengovernment #opensource
Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте
И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL
Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.
Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.
#opendata #governmenttransparence #opengovernment #opensource
❤8🔥7❤🔥3🗿1
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
GitHub
GitHub - Kanaries/pygwalker: PyGWalker: Turn your dataframe into an interactive UI for visual analysis
PyGWalker: Turn your dataframe into an interactive UI for visual analysis - Kanaries/pygwalker
👍8✍5🔥5
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
ArcKit
ArcKit - Enterprise Architecture Governance & Vendor Procurement
67 AI-assisted commands for systematic, compliant architecture governance following UK Government standards.
👍4🔥2
Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.
Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.
Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.
Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.
Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать
#opensource #ai #mozilla
Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.
Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.
Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.
Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать
#opensource #ai #mozilla
👌6👍5
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода
#opensource #ai #readings
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода
#opensource #ai #readings
MIT Press
Auditing AI
Our lives are increasingly governed by automated systems influencing everything from medical care to policing to employment opportunities, but researchers an...
❤2👍2🔥1
Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.
Насчет бенчмарков, тут хочется увидеть независимые оценки.
В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.
Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).
#opensource #datatools #dataengineering
👍6❤3
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.
А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.
Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.
Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.
Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData
#opensource #datatools
✍4🙏2👍1