Ivan Begtin
9.01K subscribers
2.64K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Знаете ли вы что... в Германии существует инициатива Deutchland-Stack как список обязательных и рекомендуемых открытых стандартов и технологий для использования в государственном секторе. Там есть множество стандартов по самым разным категориям: данные, low-code, интеграция, AI, транспортные протоколы и многое другое. Довольно хорошо описанные, оформленные и почти все с открытым кодом (кроме iOS для Apple)

Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код

#opensource #germany #eu #standards
👍118🔥4❤‍🔥21🤔1
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍6🔥531
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.

Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте

И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL

Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.

Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.

#opendata #governmenttransparence #opengovernment #opensource
8🔥8❤‍🔥3🗿1
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных

#opensource #data #datatools #eda
👍85🔥5
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе

#opensource #data #datatools #dataengineering
👍4🔥2
Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.

Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.

Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.

Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.

Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать

#opensource #ai #mozilla
👍7👌6
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода

#opensource #ai #readings
👍42🔥1
Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.

Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.

Насчет бенчмарков, тут хочется увидеть независимые оценки.

В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.

Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).

#opensource #datatools #dataengineering
👍93
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.

Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.

А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.

Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.

Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.

Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData

#opensource #datatools
👍75🙏21