В продолжение рассуждений про Kimo, дополню что лично моя коммуникация с большей части ИИ ассистентов для кодирования свелась к тому что до стадии написания кода, нужна обязательная стадия исследования и это исследование сильно помогает в дальнейшей разработке да и в принятии решения о дальнейшей разработки. Чем менее комплексный проект тем легче, но и для больших задач тоже.
Фактически до реализации того или иного компонента, продукта, программной библиотеки его видение загружаешь в несколько Deep Research продуктов и изучаешь потом их отчеты чтобы понять насколько предполагаемые решения реалистичны.
При этом ни один из Deep Research ассистентов не дает полной картины, а чаще всего их неполнота от неполноты описания того что ты хочешь спроектировать. И до стадии анализа от ИИ можно ещё ввести стадию критической оценки. Это когда у тебя есть предварительное видение результата и способа его достижения и это видение ты грузишь в ИИ ассистента с запросом на множество критических вопросов, поиск несоответствий, неполноты и противоречий.
Всё это из жизненной практики когда ты о чем то думаешь реализация чего будет стоить существенных денег, времени и иных ресурсов то хорошо когда есть кто-то не вовлеченный в процесс, достаточно нейтральный и критичный чтобы выдать критический взгляд.
В разработке ИИ ассистентами сейчас для планирования и проектирования применяются спецификации вроде OpenSpec или прямо заложенный в интерфейс режим планирования. Но это то что можно назвать тактическим планированием, стратегическое планирование в том что документ с результатами проектирования с помощью Deep Research загружается и кодирующего ИИ агента и уже он разбивает его на множество OpenSpec спецификаций.
Я какие-то глубоко рабочие примеры привести для этого не могу, приведу в пример который планирую выложить в открытый код. Вот есть файлы WARC огромного объема и используемые в веб архивации, это унаследованный формат, очень несовременный, без возможности использовать языки запросов и множество минусов, но с плюсом в том что он используется активно. Я для них писал инструмент metawarc который индексировал их в Parquet файлы и давал возможность работать хотя бы с их метаданными более менее удобно через датафреймы или DuckDB.
Предположим я хочу написать расширение для DuckDB которое бы позволяло делать SQL запросы к метаданным и данным в WARC файлах напрямую. Это могло бы сильно облегчить аналитику на их основе. Но у меня нет оптимального решения как это сделать и я задаю параллельно вопрос 5-6 Deep Research инструментам запрос на гайдлайн и далее уже изучаю их и выбираю дизайн спецификацию которую можно загрузить в Cursor или Antigravity или в другой инструмент.
И это работает, результат неидеальный, но лучше чем если изучать самому с нуля или сразу засовывать задачу в ИИ ассистента.
Мораль этого текста такова что применение ИИ важно и критично на стадии проектирования и анализа, возможно даже важнее чем на стадии разработки. И это то чем разработка на основе ИИ отличается от vide-кодирования, качеством архитектурных решений и продуманным контролем качества.
P.S. Все это только пример рассуждений про DuckDB и WARC потому что в самом простом варианте такое расширение уже существует duckdb-warc, но оно малофункционально, откуда и взялась идея насколько хорошо можно сделать его альтернативу малой кровью.
#opensource #ai #warc
Фактически до реализации того или иного компонента, продукта, программной библиотеки его видение загружаешь в несколько Deep Research продуктов и изучаешь потом их отчеты чтобы понять насколько предполагаемые решения реалистичны.
При этом ни один из Deep Research ассистентов не дает полной картины, а чаще всего их неполнота от неполноты описания того что ты хочешь спроектировать. И до стадии анализа от ИИ можно ещё ввести стадию критической оценки. Это когда у тебя есть предварительное видение результата и способа его достижения и это видение ты грузишь в ИИ ассистента с запросом на множество критических вопросов, поиск несоответствий, неполноты и противоречий.
Всё это из жизненной практики когда ты о чем то думаешь реализация чего будет стоить существенных денег, времени и иных ресурсов то хорошо когда есть кто-то не вовлеченный в процесс, достаточно нейтральный и критичный чтобы выдать критический взгляд.
В разработке ИИ ассистентами сейчас для планирования и проектирования применяются спецификации вроде OpenSpec или прямо заложенный в интерфейс режим планирования. Но это то что можно назвать тактическим планированием, стратегическое планирование в том что документ с результатами проектирования с помощью Deep Research загружается и кодирующего ИИ агента и уже он разбивает его на множество OpenSpec спецификаций.
Я какие-то глубоко рабочие примеры привести для этого не могу, приведу в пример который планирую выложить в открытый код. Вот есть файлы WARC огромного объема и используемые в веб архивации, это унаследованный формат, очень несовременный, без возможности использовать языки запросов и множество минусов, но с плюсом в том что он используется активно. Я для них писал инструмент metawarc который индексировал их в Parquet файлы и давал возможность работать хотя бы с их метаданными более менее удобно через датафреймы или DuckDB.
Предположим я хочу написать расширение для DuckDB которое бы позволяло делать SQL запросы к метаданным и данным в WARC файлах напрямую. Это могло бы сильно облегчить аналитику на их основе. Но у меня нет оптимального решения как это сделать и я задаю параллельно вопрос 5-6 Deep Research инструментам запрос на гайдлайн и далее уже изучаю их и выбираю дизайн спецификацию которую можно загрузить в Cursor или Antigravity или в другой инструмент.
И это работает, результат неидеальный, но лучше чем если изучать самому с нуля или сразу засовывать задачу в ИИ ассистента.
Мораль этого текста такова что применение ИИ важно и критично на стадии проектирования и анализа, возможно даже важнее чем на стадии разработки. И это то чем разработка на основе ИИ отличается от vide-кодирования, качеством архитектурных решений и продуманным контролем качества.
P.S. Все это только пример рассуждений про DuckDB и WARC потому что в самом простом варианте такое расширение уже существует duckdb-warc, но оно малофункционально, откуда и взялась идея насколько хорошо можно сделать его альтернативу малой кровью.
#opensource #ai #warc
GitHub
GitHub - harvard-lil/duckdb-warc: DuckDB extension for reading web archive files in WARC format
DuckDB extension for reading web archive files in WARC format - harvard-lil/duckdb-warc
1👍12
Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой
#opensource #data #dataviz #datatools
GitHub
GitHub - roostorg/osprey: Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time…
Automate the obvious and investigate the ambiguous. High-performance safety rules engine for real-time event processing at scale. - roostorg/osprey
👍3🔥3❤1
В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.
#opensource #ai #development
✍3🔥2
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.
#opensource #data #datatools
👍5🔥4
В рубрике полезных ссылок про данные, технологии и не только, подборка Text-to-SQL решений:
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)
#opensource #ai #texttosql #sql
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)
#opensource #ai #texttosql #sql
GitHub
GitHub - FalkorDB/QueryWeaver: An open-source Text2SQL tool that transforms natural language into SQL using graph-powered schema…
An open-source Text2SQL tool that transforms natural language into SQL using graph-powered schema understanding. Ask your database questions in plain English, QueryWeaver handles the weaving. - Fal...
❤5👍4
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.
Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?
Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"
И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .
#opensource #ai
Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?
Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"
И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .
#opensource #ai
🔥4
То что в России признали Калифорнийский университет Беркли нежелательной организацией - это, конечно, нечто кафкианское поскольку даже если это не затрагивает большую часть их open source проектов (там лицензии, нет формального взаимодействия), но это может привести к тому что если кто-то контрибьютит в репозитории университета или участвует в любой их разработке идущей от организации - это может быть истолковано российскими силовыми органами как участие в деятельности нежелательной организации.
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
Гонений на участников open source проектов ещё не было, но вопросы возникают.
#opensource #russia
💯15😢8💅5👍2
Ещё один инструмент для работы с базами данных использующий DuckDB WASM - dbx lite. Запускается через браузер, работает с данными локально, внутри браузера пользователя.
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
- онлайн демо
- репозиторий кода
открытый код, лицензия MIT
Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.
Для исследования данных вполне удобно
#opensource #duckdb #sql
⚡3✍1👍1
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали код полностью и выпустил его под MIT лицензией вместо оригинальной LGPL
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327
Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL
#opensource
Tuan-Anh Tran
Relicensing with AI-assisted rewrite
Exploring the chardet v7.0.0 controversy: Can an AI rewrite legally 'launder' a library from LGPL to MIT?
🤨8😢6✍3😐2❤1🔥1💅1
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.
#opensource #datatools #duckdb #dataengineering
#opensource #datatools #duckdb #dataengineering
🔥6❤5
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.
Выглядит интересно, отложил на попробовать и посмотреть в деле.
#opendata #opensource #ai #mcp
🔥6✍2👍2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM
#opensource #ai
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM
#opensource #ai
Kagi
Kagi Translate
Kagi Translate uses powerful AI models to instantly and accurately translate any content in any language.
1👍10❤1
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.
#opensource #digitalpreservation #webarchives #documentation
Electronic Frontier Foundation
Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record
Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet
👍2🔥2❤1