Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
GitHub
GitHub - roostorg/osprey: Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time…
Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time event processing at scale. - roostorg/osprey
👍3🔥3❤1
В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
✍3🔥2
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
👍5🔥4
В рубрике полезных ссылок про данные, технологии и не только, подборка Text-to-SQL решений:
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)
#opensource #ai #texttosql #sql
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)
#opensource #ai #texttosql #sql
GitHub
GitHub - FalkorDB/QueryWeaver: An open-source Text2SQL tool that transforms natural language into SQL using graph-powered schema…
An open-source Text2SQL tool that transforms natural language into SQL using graph-powered schema understanding. Ask your database questions in plain English, QueryWeaver handles the weaving. - Fal...
❤5👍4
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.
Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?
Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"
И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .
#opensource #ai
Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?
Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"
И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .
#opensource #ai
🔥4
То что в России признали Калифорнийский университет Беркли нежелательной организацией - это, конечно, нечто кафкианское поскольку даже если это не затрагивает большую часть их open source проектов (там лицензии, нет формального взаимодействия), но это может привести к тому что если кто-то контрибьютит в репозитории университета или участвует в любой их разработке идущей от организации - это может быть истолковано российскими силовыми органами как участие в деятельности нежелательной организации.
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
💯15😢8💅5👍2
Ещё один инструмент для работы с базами данных использующий DuckDB WASM - dbx lite. Запускается через браузер, работает с данными локально, внутри браузера пользователя.
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
⚡3👍2✍1
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали код полностью и выпустил его под MIT лицензией вместо оригинальной LGPL
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Tuan-Anh Tran
Relicensing with AI-assisted rewrite
Exploring the chardet v7.0.0 controversy: Can an AI rewrite legally 'launder' a library from LGPL to MIT?
🤨8😢6✍3😐2❤1🔥1💅1
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.
#opensource #datatools #duckdb #dataengineering
#opensource #datatools #duckdb #dataengineering
🔥6❤5
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
🔥6✍2👍2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM
#opensource #ai
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM
#opensource #ai
Kagi
Kagi Translate
Kagi Translate uses powerful AI models to instantly and accurately translate any content in any language.
1👍10❤1
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
Electronic Frontier Foundation
Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record
Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet
👍2🔥2❤1
Знаете ли вы что... в Германии существует инициатива Deutchland-Stack как список обязательных и рекомендуемых открытых стандартов и технологий для использования в государственном секторе. Там есть множество стандартов по самым разным категориям: данные, low-code, интеграция, AI, транспортные протоколы и многое другое. Довольно хорошо описанные, оформленные и почти все с открытым кодом (кроме iOS для Apple)
Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код
#opensource #germany #eu #standards
Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код
#opensource #germany #eu #standards
👍11✍7🔥4❤🔥2❤1🤔1