Ivan Begtin
8.99K subscribers
2.59K photos
5 videos
114 files
5.39K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Свежий доклад Building Open Digital States: Country Case Studies on the Impact of DPGs for DPI от Digital Public Goods Alliance по продвижению использования продуктов с открытым кодом среди органов власти и международных НКО для решения задач предоставления услуг, повышения эффективности госуправления и не только.

Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.

Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.

А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том что Гостеха не существует Сбер под международными санкциями, но и в том что исходный код X-Road открыт и средства международной помощи выделяются на его внедрение.

#opensource #publicgood
👍5🔥32
Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.

#tools #datatools #opensource #dataengineering
🔥5🤔1
Zvec свежая замена Sqlite в задачах векторного поиска и RAG. Выложено Alibaba под лицензией Apache 2.0. В моем понимании это прямая альтернатива LanceDB, но LanceDB пока выглядит интереснее.

#opensource #datatools #dataengineering
🔥5👍3
Подборка полезных ссылок про данные, технологии и не только:
- gogcli инструментарий командной строки для большей части популярных сервисов Google: GMail, Calendar, Classroom, Drive, Docs. Незаменимо для всех кто любит работать в командной строке и, скорее всего, удобно пристыковывается к личному локальному ИИ агенту.
- qmd еще один удобный инструмент для командной строки, Query Markup Document, поисковик по локальным файлам .md с использованием LLM. Опять же для фанатов командной строки

#commandline #tools #opensource
4
В продолжение рассуждений про Kimo, дополню что лично моя коммуникация с большей части ИИ ассистентов для кодирования свелась к тому что до стадии написания кода, нужна обязательная стадия исследования и это исследование сильно помогает в дальнейшей разработке да и в принятии решения о дальнейшей разработки. Чем менее комплексный проект тем легче, но и для больших задач тоже.

Фактически до реализации того или иного компонента, продукта, программной библиотеки его видение загружаешь в несколько Deep Research продуктов и изучаешь потом их отчеты чтобы понять насколько предполагаемые решения реалистичны.

При этом ни один из Deep Research ассистентов не дает полной картины, а чаще всего их неполнота от неполноты описания того что ты хочешь спроектировать. И до стадии анализа от ИИ можно ещё ввести стадию критической оценки. Это когда у тебя есть предварительное видение результата и способа его достижения и это видение ты грузишь в ИИ ассистента с запросом на множество критических вопросов, поиск несоответствий, неполноты и противоречий.

Всё это из жизненной практики когда ты о чем то думаешь реализация чего будет стоить существенных денег, времени и иных ресурсов то хорошо когда есть кто-то не вовлеченный в процесс, достаточно нейтральный и критичный чтобы выдать критический взгляд.

В разработке ИИ ассистентами сейчас для планирования и проектирования применяются спецификации вроде OpenSpec или прямо заложенный в интерфейс режим планирования. Но это то что можно назвать тактическим планированием, стратегическое планирование в том что документ с результатами проектирования с помощью Deep Research загружается и кодирующего ИИ агента и уже он разбивает его на множество OpenSpec спецификаций.

Я какие-то глубоко рабочие примеры привести для этого не могу, приведу в пример который планирую выложить в открытый код. Вот есть файлы WARC огромного объема и используемые в веб архивации, это унаследованный формат, очень несовременный, без возможности использовать языки запросов и множество минусов, но с плюсом в том что он используется активно. Я для них писал инструмент metawarc который индексировал их в Parquet файлы и давал возможность работать хотя бы с их метаданными более менее удобно через датафреймы или DuckDB.

Предположим я хочу написать расширение для DuckDB которое бы позволяло делать SQL запросы к метаданным и данным в WARC файлах напрямую. Это могло бы сильно облегчить аналитику на их основе. Но у меня нет оптимального решения как это сделать и я задаю параллельно вопрос 5-6 Deep Research инструментам запрос на гайдлайн и далее уже изучаю их и выбираю дизайн спецификацию которую можно загрузить в Cursor или Antigravity или в другой инструмент.

И это работает, результат неидеальный, но лучше чем если изучать самому с нуля или сразу засовывать задачу в ИИ ассистента.

Мораль этого текста такова что применение ИИ важно и критично на стадии проектирования и анализа, возможно даже важнее чем на стадии разработки. И это то чем разработка на основе ИИ отличается от vide-кодирования, качеством архитектурных решений и продуманным контролем качества.

P.S. Все это только пример рассуждений про DuckDB и WARC потому что в самом простом варианте такое расширение уже существует duckdb-warc, но оно малофункционально, откуда и взялась идея насколько хорошо можно сделать его альтернативу малой кровью.

#opensource #ai #warc
1👍12
Полезные ссылки про данные, технологии и не только:
- Osprey свежий движок с открытым кодом для борьбы со спамом, выложен командой Discord под открытой лицензией. Написан на Python и Rust, использует свой язык SML (Some Made Up Language) для описания правил. Включает UI для мониторинга работы.
- Salt язык программирования претендующий на большую простоту и, что важнее, большую производительность чем C и Rust. Лицензия MIT, и, как ни странно, но не вижу за ним никого из бигтеха, похоже на частную и хорошо продуманную инициативу
- Microsoft’s new 10,000-year data storage medium: glass Microsoft показали технологию сохранения данных внутри хранилища основанного на том что лазеры записывают данные в стекле и с прицелом на хранение в 10 тысяч лет. Про 10 тысяч лет не верится, но даже тысяча лет будет коллосальным прогрессом. 4.84TB записали на кусок стекла 12x12x0.2 см. в течение 150 часов. Кто то скажет о том как это мало и в статье приводится пример что есть радиотелескоп который сейчас в год производит 700 петабайт. Но есть и другие сравнения, большую часть письменной истории человечества можно будет сохранить в небольшой коробке. Может написать фантастический рассказ "Коробка"?:)
- Querying India's MoSPI Data with Claude and MCP в Индии статслужба начала публиковать данные статистистики с доступностью через MCP протокол, автор подключил его к Claude и показал что можно интересного с этим сделать. Спойлер: много интересного.
- FossFLOW инструмент с открытым кодом для рисования красивых изометрических диаграм. Внутри используется открытая библиотека (компонент) от ребят из сервиса Isoflow
- State of Agentic AI Report: Key Findings обзор состояния агентских ИИ от Docker'а. Любопытный, но ожидаемый, о том что более всего важен инфобез.В целом же никаких озарений, просто документ для справки и референсов. Для выгрузки требуют заполнить форму где просят все включая номер телефона, так что проще воспользоваться прямой ссылкой

#opensource #data #dataviz #datatools
👍3🔥31
В рубрике полезных инструментов для разработки Roam Code движок на Python для индексации кода в семантический граф и снижения потребления токенов ИИ агентами для программирования за счет того что вместо grep'пинга кода они обращаются к индексу. Вернее снижение потребления токенов - это лишь малая часть полезного, остальное заключается ещё и в повышении управляемости, скорости внесения изменений и так далее.

Полезный инструмент для тех кто использует ИИ агентов для работы с кодом.

#opensource #ai #development
3🔥2
LadybugDB свежий движок баз данных которые позиционируют себя как DuckDB для графов, внедряемая база данных с поддержкой языка Cypher, удобным импортом данных и встроенным веб интерфейсом просмотра графов. Лицензия MIT, есть поддержка WASM, Python и Rust.

Выглядит интересно как замена Neo4J для графовых данных относительно небольшого объёма.

#opensource #data #datatools
👍6🔥5
В рубрике полезных ссылок про данные, технологии и не только, подборка Text-to-SQL решений:
- QueryWeaver (Text2SQL) - решение с открытым кодом от FalkorDB. Из плюсов - открытый код, из минусов работает только с моделями OpenAI и требует развертывания FalkorDB которая с открытым кодом, но доп зависимость. Внутри Python и Typescript. AGPL
- WrenAI обещают поддержку многих СУБД и многих LLM. Есть демо с дашбордами. Внутри Python и Typescript. AGPL
- SQLChat баз поддерживают мало, из LLM только OpenAI. Typescript и MIT лицензия
- Vanna поддерживает много баз, почти любую LLM. Python. Лицензия MIT. Разработка остановилась где-то в апреле 2025 г.
- Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources текст в блоге Amazon о том как Text-to-SQL может реализовываться и в чем есть системные сложности
- Getting AI to write good SQL: Text-to-SQL techniques explained текст в блоге Google на ту же тему и со схожими рекомендациями (задавайте контекст)

#opensource #ai #texttosql #sql
5👍4
The Generative AI Policy Landscape in Open Source интересный обзор публичных политик в отношении использовании ИИ для изменения кода и отправки ошибок у основных проектов с открытым кодом.

Обратите внимание на немалое число проектов где есть полный запрет на изменение кода с помощью ИИ. Будет ли это ещё одним критерием выбора продуктов с открытым кодом из альтернатив?

Представим себе логику "Хочу выбрать себе дистрибутив Linux на сервер, какой брать - с полным запретом на ИИ код или наоборот который преимущественно ИИ пишется?"

И это ни разу не шутка. Велика вероятностью появления альтернативных open source продуктов которые будут делаться в разы меньшими командами .

#opensource #ai
🔥4
То что в России признали Калифорнийский университет Беркли нежелательной организацией - это, конечно, нечто кафкианское поскольку даже если это не затрагивает большую часть их open source проектов (там лицензии, нет формального взаимодействия), но это может привести к тому что если кто-то контрибьютит в репозитории университета или участвует в любой их разработке идущей от организации - это может быть истолковано российскими силовыми органами как участие в деятельности нежелательной организации.

Гонений на участников open source проектов ещё не было, но вопросы возникают.

#opensource #russia
💯15😢8💅5👍2
Ещё один инструмент для работы с базами данных использующий DuckDB WASM - dbx lite. Запускается через браузер, работает с данными локально, внутри браузера пользователя.
- онлайн демо
- репозиторий кода

открытый код, лицензия MIT

Автор позиционирует его как замену пользовательскому интерфейсу DuckDB, но это не вполне верно поскольку тот про замену тетрадок и похож скорее на Jupyter Notebook, а dbx lite скорее для SQL запросов в чистом виде.

Для исследования данных вполне удобно

#opensource #duckdb #sql
3👍21
Помните я писал что ИИ будут использовать для переписывания кода для сменя лицензии? Так и происходит https://tuananh.net/2026/03/05/relicensing-with-ai-assisted-rewrite/ автор пишет о кейсе когда новые майнтейнеры библиотеки chardet с помощью ИИ переписали код полностью и выпустил его под MIT лицензией вместо оригинальной LGPL

Теперь их обвиняют в нарушении GPL https://github.com/chardet/chardet/issues/327

Да, это похоже на смерть copyleft'а и лицензирования под GPL/LGPL. Потому что ИИ позволяет быстро создавать почти идентичный по фунциональности и совместимый код под MIT или другим лицензиям не имеющих ограничений GPL/LGPL

#opensource
🤨8😢63😐21🔥1💅1
Новая версия DuckDB 1.5 обещают поддержку типа GEOMETRY для геоданных, обновленную утилиту командной строки, подключение к ODBC, обновление спецификации DuckLake и больше поддержки озер данных и множество других изменений.

#opensource #datatools #duckdb #dataengineering
🔥65
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥62👍2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM

#opensource #ai
1👍101
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.

#opensource #digitalpreservation #webarchives #documentation
👍2🔥21
Знаете ли вы что... в Германии существует инициатива Deutchland-Stack как список обязательных и рекомендуемых открытых стандартов и технологий для использования в государственном секторе. Там есть множество стандартов по самым разным категориям: данные, low-code, интеграция, AI, транспортные протоколы и многое другое. Довольно хорошо описанные, оформленные и почти все с открытым кодом (кроме iOS для Apple)

Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код

#opensource #germany #eu #standards
👍117🔥4❤‍🔥21🤔1
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍5🔥421
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.

Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте

И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL

Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.

Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.

#opendata #governmenttransparence #opengovernment #opensource
6🔥4❤‍🔥2