Ivan Begtin
9.38K subscribers
2.19K photos
4 videos
104 files
4.9K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- Data Engineering: Now with 30% More Bullshit [1] автор ругается на термин Modern Data Stack и рассказывает про архитектуры полезное, объясняя разницу между маркетингом и здравым смыслом
- dbt Isn't Declarative — And That's a Problem [2] автор явно член секты декларативного программирования недолюбливает dbt за недекларативность и объясняет как правильно и почему. Только пока что декларативных аналогов dbt нет как бы кому-то этого не хотелось. Не, ну если появится, я бы посмотрел
- How Agoda Uses GPT to Optimize SQL Stored Procedures in CI/CD [3] автор пишет про то как применил LLM к оптимизации хранимых процедур. Плохо пишет, код нормально не приводит, то какую LLM использовал неясно, но идея разумна и практична. Для тех кто пользуется хранимыми процедурами
- Parquet is a streaming data format [4] о том что Parquet файлы можно использовать для потоковой обработки данных. Неожиданно, немного, но всё так
- Introducing MAI-DS-R1 [5] открытая модель от Microsoft на базе DeepSeek превосходящая оригинальную по множеству параметров и обходящая цензурные ограничения дипсика на тему Китая.
- An Intro to DeepSeek's Distributed File System [6] подробности о том как устроена 3FS открытая файловая система от DeepSeek.
- SpacetimeDB [7] open source СУБД и сервис для баз данных и серверов для разработчиков онлайн игр. Вообще интересная ниша и продукт любопытный. Ни разу не дешёвый как сервис, но как открытый код вполне бесплатен.
- Cloudflare R2 + Apache Iceberg + R2 Data Catalog + Daft [8] автор пишет про Apache Iceberg поверх R2 и работать с данными с помощью Daft. Выглядит всё лучше и лучше, практичнее и практичнее.

Ссылки:
[1] https://luminousmen.com/post/data-engineering-now-with-30-more-bullshit
[2] https://jennykwan.org/posts/dbt-isnt-declarative/
[3] https://medium.com/agoda-engineering/how-agoda-uses-gpt-to-optimize-sql-stored-procedures-in-ci-cd-29caf730c46c
[4] https://www.linkedin.com/posts/danforsberg_parquet-is-a-streaming-data-format-i-activity-7319055651689631744-M64r/
[5] https://techcommunity.microsoft.com/blog/machinelearningblog/introducing-mai-ds-r1/4405076
[6] https://maknee.github.io/blog/2025/3FS-Performance-Journal-1/
[7] https://spacetimedb.com
[8] https://dataengineeringcentral.substack.com/p/cloudflare-r2-apache-iceberg-r2-data

#opensource #dataengineering
This media is not supported in your browser
VIEW IN TELEGRAM
Внезапно обнаружил прекрасное, чей то эксперимент по 3D рисованию с помощью DuckDB-WASM [1] и созданию клона Doom'а через SQL.

Тот случай когда безумная задача, необычный выбор способа её реализации и неплохие результаты.

Автор выложил код на Github [2], там его немного и всё в виде SQL + JS.

Ссылки:
[1] https://www.hey.earth/posts/duckdb-doom
[2] https://github.com/patricktrainer/duckdb-doom

#opensource #datatools
Подборка полезных ссылок про данные, технологии и не только:
- Wireduck [1] расширение для DuckDB для чтения файлов сохраненного сетевого трафика PCAP. Для тех кто анализирует трафик вручную или автоматически может оказаться очень полезным
- OpenDataEditor v1.4.0 [2] новая версия инструмента для публикации открытых данных от Open Knowledge Foundation. Пока не пробовал, но скоро надо будет посмотреть внимательнее.
- dataframely [3] библиотека для декларативной проверки данных в дата фреймах нативная для Polars. Есть вероятность что будет работать с хорошей производительностью. Уже напрашиваются бенчмарки для библиотек и инструментов валидации фреймов и датасетов.
- Repairing Raw Data Files with TASHEEH [4] статья про инструмент восстановления битых CSV файлов. Это результат работы команды из Hasso-Plattner Institut [5]. Код найти не удалось, хотя пишут что он открыт, скорее всего под эмбарго пока что
- Pollock [6] инструмент и бенчмарк от той же команды из HPI по измерению качества парсинга CSV файлов. Неожиданно и тут лидирует DuckDB. Удивительно что о нём никто не знает. У этой команды много инструментов и практических работ по теме data preparation.

Ссылки:
[1] https://github.com/hyehudai/wireduck
[2] https://blog.okfn.org/2025/04/21/announcement-open-data-editor-1-4-0-version-release/
[3] https://tech.quantco.com/blog/dataframely
[4] https://www.semanticscholar.org/paper/Repairing-Raw-Data-Files-with-TASHEEH-Hameed-Vitagliano/4ec3b2d9e8ef1658bfce12c75e1ad332d4f73665
[5] https://hpi.de/naumann/projects/data-preparation/tasheeh.html
[6] https://github.com/HPI-Information-Systems/Pollock

#opensource #data #datatools #dataengineering
PDF Craft [1] ещё один инструмент с открытым кодом преобразования PDF файлов в разные форматы включая аккуратную разметку и перенос изображений. Может использовать LLM для анализа документа и ускорятся с помощью CUDA.

Русский язык пока не поддерживает [2] потому что языковое распознавание вынесено в отдельную библиотеку OnnxOCR [3] заточенную под английский и китайский языки. Скорее всего другие языки с латинскими буквами тоже будет распознавать, а вот кириллические пока нет.

Интересно ещё что там с распознаванием армянского языка.

Интересная штука даже с текущими ограничениями.

А мне вот нужна, хоть самому пиши, штука которая получив PDF документ извлечёт из него все таблицы, извлечет данные из графиков и запишет всё в приложении к документу. Но таких пока нет и у меня времени не хватит в ближайшие месяцы.

Ссылки:
[1] https://github.com/oomol-lab/pdf-craft
[2] https://github.com/oomol-lab/pdf-craft/issues/145
[3] https://github.com/jingsongliujing/OnnxOCR

#opensource #pdf
Я вначале думал что это первоапрельская шутка, а оказывается совсем нет, мебель с открытым кодом, Hyperwood [1] и это прям реально открытый код на Github [2] спецификация для обмена данными и описания моделей.

На что только люди не находят время и выглядит весьма и весьма неплохо.

Ссылки:
[1] https://hyperwood.org/
[2] https://github.com/jo/hyperwood

#opensource #wood
Ещё один инструмент построения конвееров данных sql-flow [1] через декларативное описание в конфигурации YAML и SQL запросы.

Внутри DuckDB и Apache Arrow, поддерживаются Kafka, PostgreSQL и другие источники цели для записи.

Выглядит как нечто неплохо спроектированное и описанное.

Для тех кто любит SQL и YAML - самое оно.

Ссылки:
[1] https://github.com/turbolytics/sql-flow

#opensource #datatools #dataengineering
В рубрике полезных ссылок про данные, технологии и не только:
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.

Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/

#opendata #datatools #opensource #datapolicy #ai
Подборка регулярных ссылок про данные, технологии и не только:
- Smithy opensource генератор кода и документации для сервисов с собственным языком их описания, от команды Amazon AWS. Казалось бы зачем если есть OpenAPI/Swagger, но поддерживает множество стандартов сериализации и транспорта

- Unlock8 кампания по продвижению идеи того что навыки программирования и работы с ИИ должны быть обязательными для всех школьников в США. В подписантах сотни CEO крупнейших ИТ компаний. Тотальное обучение программированию может быть чуть-ли не единственным объективным решением после массового проникновения AI в школы. Лично я поддерживаю эту идею, но не в США конкретно, а применительно ко всем странам.

- SmolDocling особенно компактная модель распознавания образов для преобразования документов. Доступна на HuggingFace. Пишут что очень хороша, но в работе её ещё не видел. Надо смотреть и пробовать.

- NIH blocks researchers in China, Russia and other countries from multiple databases администрация Трампа с 4 апреля ограничили доступ исследователей из Китая, Ирана, России, Кубы, Венесуэлы, Гонконга и Макау ко множеству научных репозиториев данных связанных со здравоохранением. Это так называемые controlled-access data repositories (CADRs), репозитории доступ к которым предоставляется по запросу.

- A First Look at ODIN 2024/25: A Decade of Progress with New Risks Ahead обзор доступности и открытости данных по статистике по практически всем странам. Краткие выводы: открытости в целом больше, больше данных доступно, больше свободных лицензий и машиночитаемости. Я лично не со всеми их оценками могу согласится, но это объективно важный монитор общей доступности статистики в мире. Можно посмотреть, например, изменения в доступности данных по РФ за 2020-2024 годы. Кстати, если посмотреть подобно на индикаторы, то видно что оценщики не смотрели на системы типа ЕМИСС, а оценивали только по доступности данных на официальных сайта Росстата и ЦБ РФ. О чём это говорит? Нет, не о их невнимательности, а о том что сайт Росстата устарел морально и технически.

#opensource #opendata #ai #sanctions
Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.

Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem

#opensource #datadocumentation #datapolicy #plainlanguage
Model Context Protocol (MCP) был разработан компанией Anthropic для интеграции существующих сервисов и данных в LLM Claude. Это весьма простой и неплохо стандартизированный протокол с вариантами референсной реализации на Python, Java, Typescript, Swift, Kotlin, C# и с большим числом реализаций на других языках.

Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов

Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.

#ai #opensource #aitools
О том как устроена архивация сайтов в примере. Я не раз писал о том как устроена веб архивация и цифровое архивирование в принципе и среди многих проблем в этой области, далеко не последняя в том что почти весь инструментарий для этой задачи, скажем так, слегка устарелый. А на то чтобы переписать его нужны серьёзные расходы, но не инвестиционные потому что они врядли окупаются.

Один из таких инструментов - это grab-site [1] от команды ArchiveTeam, волонтеров архивирующих гибнущие веб сайты.

Его ключевые фичи - это возможность динамически настраивать списки блокировки/игнорирования и большие подборки преднастроенных правил игнорирования несодержательного контента.

Это, к слову, одна из серьёзных проблем при веб архивации, чтобы краулер не оказался в ловушке циклических перенаправлений и чтобы он не индексировал дубликаты. А также у grab-site в комплекте сервер мониторинга краулинга.

Внутри grab-site используется аналог утилиты wget под названием wpull. С очень давно не обновлявшимся кодом и чуть большими возможностями по автоматизации обработки получаемого потока данных.

Все эти инструменты из экосистемы WARC, они архивируют весь контент в WARC файлы.

Это экосистема выросшая из Интернет Архива, но переставшая развиваться уже много лет. Гораздо чаще контент с сайтов краулят не для архивации, а для обработки или извлечения данных и инструменты для архивации из WARC экосистемы для этого пригодны плохо.

Вместо них используют совсем другие краулеры, в том числе ныне популярные краулеры для AI или встроенные в инструменты вроде Elastic.

Тем не менее на фоне реформы российского Росстата архивировать его контент необходимо потому что, выражаясь аллегорически, "Почему-то каждый раз когда они снимают фильм про Робин Гуда, они сжигают нашу деревню" (c).

А я напомню про ещё один инструмент, metawarc [2] это разработанная мной несколько лет назад утилита по анализу веб архивов. Она извлекает из WARC файлов метаданные и делает рядом индексный файл с которым можно работать через SQL.

Ссылки:
[1] https://github.com/ArchiveTeam/grab-site
[2] https://github.com/datacoon/metawarc

#webarchives #digitalpreservation #opensource
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings
Подборка ссылок про данные, технологии и не только

AI

- Transforming R&D with agentic AI: Introducing Microsoft Discovery о Microsoft Discovery, инструменте в виде агентского AI для исследователей. Акцент явно на практических исследованиях и сервисе для исследовательских центров и университетов.
- Spatial Speech Translation: Translating Across Space With Binaural Hearables научная статья про прогресс распознавания речи одновременно говорящих в толпе. Если всё сильно продвинется то тут столько возможностей для шпионского применения. Так и просится на страницы книги/рассказа про будущее.
- Claude Code SDK свежее SDK для генерации кода от Claude для тех кто хочет интегрировать Claude в свой продукт.

Открытый код
- Void альтернатива Cursor с открытым кодом. Пишут что поддерживают условно любую LLM, локальную или облачную. Форк VS Code.
- Marginalia Search - малоизвестный небольшой европейский поисковик авторы которого пытаются переосмыслить индексацию некоммерческой части интернета. Делают на небольшой европейский грант, открытый код AGPL. Любопытно, есть пара интересных идей, но нет хорошо продуманной стратегии.
- Scrapling свежая библиотека по "скрытному" парсингу сайтов. Интегрирована со всякими сервисами онлайн прокси, авторы обещают парсинг HTML быстрее чем у многих других инструментов. Выглядит полезно. Лицензия BSD-3
- Doctor инструмент для краулинга и индексации веб сайтов и предоставления собранного контента как MCP сервера. Можно сказать сайт-в-MCP. Внутри crawl4ai, DuckDB и Redis. Используют DuckDB как базу для векторного поиска, что немного необычно. Лицензия MIT
- VERT - конвертер изображений, видео, документов, аудио с открытым кодом и онлайн сервисом. Код под AGPL и веб интерфейс выглядит смазливо так что авторы явно нацелились на стартапо по модели онлайн сервис + открытый код. Плюс - работает без облака, через WebAssembly все преобразования идут на вашем компьютере. Это же и минус, потоковое преобразование сотен тысяч файлов не организовать.

#opensource #data #datatools #ai
Вышла новая версия 1.3.0 DuckDB [1] с кучей изменений и улучшений.

Из важного стоит отметить:
1. Кэширование внешних файлов.
Теперь при обращении к файлу по ссылке он по умолчанию кешируется. Это очень удобно при работе с файлами относительно небольшого объёма.Опять же DuckDB здесь выступает скорее как query engine чем как база данных

2. Прямое обращение к файлу с командной строки

Позволяет сразу передать файл параметром и сделать запрос. Удобно тем что позволяет сократить описание к командной сроке и сэкономить время.

3. Расширение для кодировок
Это, конечно, давно ожидаемая [2] возможность работы с файлами в любой кодировке. Многим это существенно облегчит жизнь.

Также пишут что системно переработали код чтения и записи в Parquet файлы и всё должно быть быстрее, вот это надо будет проверить. Потому что чтение вроде как и раньше было неплохо, а вот запись в Parquet в DuckDB съедала много оперативной памяти.

Там ещё много изменений связанных с работой с геоданными, JOIN'ам, инструмент явно и быстро улучшается.

Ссылки:
[1] https://duckdb.org/2025/05/21/announcing-duckdb-130.html
[2] https://duckdb.org/docs/stable/core_extensions/encodings

#opensource #dataengineering #duckdb
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом


Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/

#opensource #data #datatools
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.

У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.

Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.

Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/

#opensource #microsoft
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.

Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.

Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake

#data #opensource #datatools #duckdb
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на воплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.

#ai #statistics #opensource #data #datatools
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].

Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев

Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.

Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты


Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/

#opensource #france #opendata #sourcecode
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.

Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.

Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.

Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем

Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb

#opensource #ai #data