Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них MCP сервис для доступа к данным французского национального портала открытых данных data.gouv.fr.

Опубликовано под MIT лицензией, внутри FastMCP, много примеров и рекомендаций по подключению для разных инструментов.

Выглядит интересно, отложил на попробовать и посмотреть в деле.

#opendata #opensource #ai #mcp
🔥62👍2
Подборка ссылок про данные, технологии и не только:
- Kagi онлайн переводчик умеющий переводить на токсично-позитивный язык LinkedIn'а. Переводы смешные, особенно для тех кто в LinkedIn с таким не сталкивался, а те кто сталкивался уже не смеются, там реально многие так пишут;)
- Gdb-engines маленький сайт сравнения 67 движков графовых баз данных с открытым кодом. Полезно для тех кто выбирает графовую базу с нуля или на замену имеющейся
- Gdotv в ту же тему графовых баз, графический клиент ко многим графовым базам, есть версии для Windows, Macos и Linux. Код, увы, не открыт, но есть бесплатная версия
- Lightpanda Browser headless браузер для автоматизации с помощью ИИ агентов, живет в виде Docker контейнера, под AGPL лицензией. Самое интересное что он написан с нуля на языке программирования Zig и не является форком Chromium'а или Webkit'а. Это важно из-за радикально меньших объемов потребления памяти. Продукт как хорошая реклама языка Zig
- DeerFlow (Олений поток) от Bytedance обещают агента умеющего исследовать и кодировать и творить. Открытый код, MIT лицензия. Поддерживает условно любую LLM

#opensource #ai
1👍101
Подборка ссылок про данные, технологии и не только:
- Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record заметка в EFF о том что New York Times начали блокировать Интернет Архив поскольку опасаются что через него ИИ компании получат доступ к материалам издания. Подробнее на сайте NiemanLab и с упоминанием других изданий. Издателям не нравится что у Интернет Архива есть открытое API, а смысл публикаций в том что теперь они де-факто создают ситуацию когда их материалы не будут сохранены.
- Snowlake уволили всю команду документирования для тех кто не слышал о них - это компания одна из лидеров облачных дата платформ, и вот они пошли по пути полной замены всего подразделения документирования на ИИ. К чему это приведет скоро узнаем, однако тенденция эта не нова и новости про большие сокращения команд документирования проходили и ранее. Такими темпами скоро профессия технического писателя вымрет и заменится на профессию Developer experience engineer (DEE) которая может и должна включать коммуникацию с пользователями.
- Open Technology Research анонсированная глобальная платформа помощи исследователям создаваемая партнерством Open Knowledge Foundation, Open Source Initiative и OpenForum Europe. Интересное - акцент на открытой инфраструктуре. Но смущает отсутствие в инициаторах организаций выделяющих средства и самих исследовательских центров. Такой проект был бы логичнее от университетского консорциума или от консорциума доноров исследовательских проектов. А участие 3-х даже и уважаемых НКО про открытость не выглядит чем-то устойчивым.

#opensource #digitalpreservation #webarchives #documentation
👍2🔥21
Знаете ли вы что... в Германии существует инициатива Deutchland-Stack как список обязательных и рекомендуемых открытых стандартов и технологий для использования в государственном секторе. Там есть множество стандартов по самым разным категориям: данные, low-code, интеграция, AI, транспортные протоколы и многое другое. Довольно хорошо описанные, оформленные и почти все с открытым кодом (кроме iOS для Apple)

Картинка и сайты основаны на базе Cloud Native Landscape у которого есть открытый код

#opensource #germany #eu #standards
👍118🔥4❤‍🔥21🤔1
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая внимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.

P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.


#opensource #datatools #ai #thoughts
👍6🔥531
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.

Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте

И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL

Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.

Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.

#opendata #governmenttransparence #opengovernment #opensource
8🔥8❤‍🔥3🗿1
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных

#opensource #data #datatools #eda
👍85🔥5
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе

#opensource #data #datatools #dataengineering
👍4🔥2
Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.

Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.

Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.

Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.

Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать

#opensource #ai #mozilla
👍7👌6
Полезные ссылки про данные, технологии и не только:
- Auditing AI книжка про то как организовывать аудит ИИ систем. Выглядит полезно, но хочется большего погружения. В открытом доступе под CC-BY-ND
- Understanding Data свежая книга про понимание статистики и дата сайенс в современном мире. Авторы из мира биоинформатики, но большая часть написанного универсальна
- Apodex сингапурский стартап Miromind AI переехал в США и меняет название. Лично я активно пользовался их продуктом MiroThinker и теперь вроде как у них think.apodex.ai. А также у них есть открытый deep research агент в виде открытого кода

#opensource #ai #readings
👍42🔥1