Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍6🔥531
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.

Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте

И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL

Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.

Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.

#opendata #governmenttransparence #opengovernment #opensource
8🔥8❤‍🔥3🗿1
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных

#opensource #data #datatools #eda
👍85🔥5
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе

#opensource #data #datatools #dataengineering
👍4🔥2
Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.

Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.

Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.

Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.

Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать

#opensource #ai #mozilla
👍7👌6
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода

#opensource #ai #readings
👍42🔥1
Новая внедрямая база данных SlothDB умеющая читать разного рода дата файлы вроде parquet, csv, json, avro и о которой автор пишет что она быстрее DuckDB.

Что интересно - похоже на зрелый и проработанный проект, не знаю насчет скорости, но точно с очень небольшим футпринтом что особенно критично для умных устройств, мини инсталляций и тд.

Насчет бенчмарков, тут хочется увидеть независимые оценки.

В любом случае появление алттернативы DuckDB которая была бы лучшее/быстрее/мощнее - это хорошо.

Малый футпринт еще важен для применения в веб интерфейсах, поскольку размер кода для WebAssembly существенно меньше (по обещаниям автора).

#opensource #datatools #dataengineering
👍93
Ещё один симпатичный продукт в стиле Dashboard-as-a-code, он так и называется dac. Это тип продуктов в которых содержимое и стиль отображение графиков и других элементов дашбордов задается декларативным программированием, обычно YAML файлами.

Таких продуктов есть некоторое количество и постепенно их все больше. Например, есть Lightdash построенный таким же образом, но он внутри использует dbt что усложняет порог входа.

А dac сделан командой bruin, разработчиков одноименного ETL движка и сервиса для создания дашбордов с помощью ИИ ассистентов.

Собственно и в dac нет зависимости от dbt, но есть зависимость от bruin.

Почему такие инструменты полезны? инструменты вроде dashboard-as-a-code легче поддаются ИИ разработке и автоматизации.

Среди продуктов такого класса можно вспомнить ещё Evidence, Holistics, GoodData

#opensource #datatools
👍75🙏21
Datatype симпатичный инструмент построения графиков реализованный в виде шрифта и превращающий текст в графики. Я такое ранее видел в sparks где тоже можно было делать минималистичные линейные графики с помощью шрифта, а тут более проработанный и зрелый продукт.

Казалось бы ерунда, но это не так поскольку дает возможность резкого ускорения подгрузки дашбордов, отчетов, графиков и иной визуализации за счет сокращения обращений к серверу, отсутствия подгружаемых изображений и так далее.

Там где считаются миллисекунды и где супер-пупер интерактивная визуализация не нужна - это прямо таки находка.

#opensource #dataviz
🔥16❤‍🔥43😁3
Open Design открытый (open source) продукт для создания дизайна и верстки сайтов и приложений. Сделан по аналогии с Claude Design, но можно использовать разных провайдеров через их командные строки или API . Настраиваемость очень высокая, можно использовать и локальные модели через Ollama или LM Studio или альтернативы.

В качестве примера я за 5 минут сделал альтернативную верстку для общественного каталога открытых данных hubofdata.ru который мы давно не обновляли, но который все еще жив. Специально привожу именно его в пример потому что показывать то чем реально занимаюсь никак не могу;)

Все примеры датасетов и организаций на макетах условны, все сделано на очень скорую руку.

Лично мне в текущей версии нехватило режима в стиле "Сделай 4 разных вида дизайна и отобрази их для сравнения". Но это в идеале, а текущее уже хорошо.

#opensource #ai #design
1👍104🔥2
ProgramBench интересный проект и исследование из Meta про проверке способности LLM не просто программировать, но и проектировать архитектуру приложений.

LLM проверяются на способность воспроизвести приложения имея доступ только к исполняемому файлу и не имея доступа к документации, исходному коду и интернету в принципе.

Идея интересная со многих точек зрения.
1-я - это возможность воспроизведения проприетарных продуктов, реконструкция унаследованных приложений на новых технологиях. Угроза для огромного числа малых компаний софтверных разработчиков.
2-я - это возможность снятия лицензионных ограничений с open source с ограничивающими лицензиями. Например, есть продукт под GPL, а тебе нужен аналог под MIT лицензией. Это даже проще поскольку исходный код доступен.

Понятно что этот тест с утилитами работающими с командной строки и программными библиотеками пока что упрощенный, но дальше могут быть такие же тесты для GUI/UI/Web приложений, для драйверов, для многого другого.

#opensource #ai #thoughts
👍6🔥21
Flowfile визуальный ETL инструмент внутри которого Polars и который создает код для Polars в процессе. Лицензия MIT, выглядит довольно неплохо, хотя и не охватывает большого числа возможностей других ETL.

Лично я к визуальным ETL инструментам отношусь предвзято, но как инструмент low-code моделирования может быть интересным.

#opensource #dataengineering #data #datatools
🔥9👍5❤‍🔥3🕊2
Data Landscape интерактивная визуализированная база знаний по стандартам работы с данными. Разделенные на группы рекомендуемых, ситуативных, интересных и не рекомендуемых.

Не буду утверждать что я со всеми классификациями согласен и считаю эту базу знаний полной, но она точно полезна.

Как минимум полезна в разговорах о том что использовать, а что не надо.

Открытый код, MIT лицензия.

#opensource #dataengineering
❤‍🔥7👍5🔥41
Вышел Quack от DuckDB протокол превращающий эту in-process локальную базу данных в серверный вариант. У меня лично и в мыслях не было использовать DuckDB как серверную СУБД, в моем понимании это скорее инструмент доступа к данным (query engine) чем база данных, но у меня свои кейсы, а других свои. Надо подумать как эти новые функции можно применить на практике.

#opensource #rdbms #datatools
👍11🔥3🌚2
Выступление Hannes Mühleisen на AI Council о DuckDB Quack (серверном протоколе для DuckDB) https://www.youtube.com/watch?v=L_lttD-d1wc

Интересно тем что он целенаправленно сравнивает DuckDB с PostgreSQL (отмечу что не с Clickhouse) и всячески их противопоставляет отчего возникает резонный вопрос можно ли действительно DuckDB теперь рассматривать как полноценную замену PostgreSQL ? Если да, то это потенциальное обновление множества технологических стеков. Как минимум даже серверная версия DuckDB гораздо легче в развертывании.

Видео длинное, но докладчик интересный. Тем кто интересуется развитием и применением СУБД для аналитики будет полезно.

#datatools #dataengineering #opensource
🤔104
Подборка ссылок про данные, технологии и не только:
- The Federal Data Field Guide руководство по федеральным открытым данным в США от исследователей из UC Berkeley. Со своей классификацией данных по типам и разъяснением того как они регулируются. Полезно для быстрого погружения
- The 2026-07-28 MCP Specification Release Candidate свежая спецификация (почти принятая) протокола MCP. Полезно для тех кто разрабатывает интерфейсы для ИИ агентов
- Understand Anything превращает код репозитория в граф с интеграцией с основными ИИ инструментами для разработки и с визуализацией наглядно. Для анализа унаследованного кода самое оно. А можно такое не только для кода, а для данных, документов и так далее? Для кода проще, конечно. Лицензия MIT
- Anthropic prepares Mythos 1 for Claude Code and Claude Security похоже что Anthropic готовят модель Mythos к релизу, посмотрим как это затронет рынок инфобеза и новый виток кибервойн/кибератак.
- The Latin Text Archive большой банк данных текстов на латыни. Текстов почти 13 тысяч, они аннотированы, размечены. Есть подробный лексикон, множество дата-инструментов в виде временных рядов и визуализаций. Доступно API. Все под лицензией MIT

#opendata #opensource #ai
🔥5👍4
Для тех кто интересуется, новый релиз 1.1.2 проекта internacia-db в виде курируемого датасета с метаданными всех стран (включая макрорегионы) и всех известных международных/межгосударственных страновых объединений (ЕС, ЕАЭС, БРИКС, НАФТА, ASEAN и много других)

В этом релизе:
- добавлены 42 дополнительных международных блока - это межгосударственные организации, форумы и соглашения.
- обновлен список типов блоков (blocktypes), теперь он точно отражает метаданные в таблице самих блоков
- по многим блокам включающим почти все страны в карточках отсутствовали полные перечни стран, теперь они добавлены.

Датасет распространяется в форматах JSON lines, YAML и Parquet. Он будет наиболее полезен тем кто занимается сравнением разных стран, сопоставлении данных международной статистики, торговли и так далее.

Создавался он в рамках работ над Dateno где он тоже используется в задачах мэппинга стран из метаданных в первоисточниках.

Если найдете там ошибки или будет чем дополнить - пишите сразу мне.

#opendata #datasets #opensource

Для всех кто занимается меж
👍54🔥3
Osiris open source продукт позиционируемый как альтернатива Palantir.

Включает отображение данных из множества слоев - конфликты, новости, уличные камеры, землетрясения и многое другое.

Я бы сказал что проект скорее "смазливый" чем какой-то другой. Очень подходящий для показа красивых картинок начальству или на каких-то экранах на выставках и очень далекий от практического применения. С развитием ИИ интерфейсы делать стало дешевле чем собрать и правильным образом интегрировать данные. А тут подключены не самые нужные данные, а те что хорошо подсвечены и доступны.

Тем не менее польза и от этого есть.

Код
под MIT, визуализация с помощью MapLibre

#opensource #analytics
🤔6❤‍🔥5🔥5🤨2
Подборка ссылок про данные, технологии и не только:
- Redistricting Data Hub портал открытых данных о перераспределении округов, включает много данных по разным штатам США. В чистом виде общественно-политический проект множества партнерских избирательных организаций. Интересен технологичностью и четким фокусом
- OpenData набор проектов построения объектных и векторных хранилищ. Назвались очень странно OpenData, все таки, про другое. Делают что-то интересное, но непонятное потому что с названием не коррелирует.
- Headroom комплексный инструмент сжатия контекста для кодирующих ИИ агентов, помогает оптимизировать токены и скорость разработки. Обещают сжатие использования токенов в 60-95%
- AI Engineering from Scratch вводный курс для ИИ инженеров, 503 урока в 20 фазах. С открытым кодом

#opendata #opensource #ai #tools
5
Полезные ссылки про данные, технологии и не только:
- coreutils Microsoft выпустили набор unix подобных инструментов для Windows. Хочется сказать не поздно ли? Ибо альтернативы были, тут главное достоинство в том что это родные утилиты от производителя, но со своими ограничениями. Полезно для всех кто использует W10/W11 и любит командную строку
- Pluto система тетрадок на базе языка Julia. Примеры на сайте не открываются, сложно посмотреть пока в действии, но само по себе интересно, хотя и врядли серьезно потеснит Python
- ingestr новая версия утилиты быстрой загрузки данных в огромное число источников из большого числа источников. Пишут что в версии 1 существенное ускорение по сравнению с другими инструментами и версией 0. Надо пробовать.

#opensource #data #tools
👍3