Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них
Государственный каталог Музейного фонда

Существует как минимум 8 лет, включает 9335 объектов.

Из плюсов:
- имеет API (недокументированное), охватывает множество музеев страны.

Из минусов:
- условия использования материалов не определены
- объекты в виде книг отсканированы только в виде обложек
- 9335 объектов это очень мало для страны в 9 миллионов человек и более 150 музеев. В одном только национальном музее Беларуси 37 тысяч единиц

Во всех таких каталогах я проверяю на наличие объектов относящихся к Армении и в белорусском каталоге их практически нет, вернее всего два.

#culturalheritage #opendata #belarus
13👍2
В дополнение к классификациям приложений https://t.me/begtin/6810 которые я ранее перечислял могу сформулировать ещё одну - local-network-first. Это почти как local-first, когда приложение выполняется локально, но получает дополнительные возможности при наличии сетевого доступа. local-network-first - это когда дополнительные сервисы для такого приложения остаются в контуре компании/проекта, но достаточно стандартизовано. Например, если приложение может использовать облачную LLM, а может использовать LLM развернутое в локальной сети (или не в локальной, но под контролем). Тем самым расширенные функции сохраняются, но взаимодействие идёт не в пределах локального устройства, а в пределах сети. При этом есть и возможность переключиться на облачное API/сервис.

Выглядит уже как архитектурный шаблон, пока не самый распространённый, но кто знает.

#itarchitecture #api #thoughts
1👍8
Хорошая картинка (источник) отображающая основные дата профессии для тех кто выбирает чему учиться и куда переквалифицироваться.

К ним можно добавить ещё 3:
- data quality engineer (спец по качеству данных, подвид дата аналитика)
- platform engineer (дата инженерия на основе облачных платформ, подвид дата инженера)
- analytics engineer (гибрид дата аналитика и дата инженера)

И более редкая карьера в ответе на вопрос "любите ли Вы программировать?". Если да, то есть ещё путь в разработчики data продуктов.

Ничего не упустил?

#data #thoughts #career
210👍31
Полезное чтение про данные, технологии и и не только:
- Traps for developers подборка советов по особенностям языков программирования и фреймворков. По Python совсем мало, видно что не сильная сторона автора, по многим другим немало, в целом выглядит полезно.
- Data quality guides подборка руководств по качеству данных, вернее по процессам организации обеспечения качества данных. Все собраны из документов руководств дата-компаний и, по сути, касаются не только качества данных, но и управления данными в целом, что затрагивает качество.
- Big Tech Is Eating Itself in Talent War статья в WSJ за пэйволом о том что главный дефицит в бигтехах сейчас - это ИИ таланты за которые идёт всё более ожесточённая война.
- Building a web search engine from scratch in two months with 3 billion neural embeddings лонгрид о том как автор пытается создать поисковую систему по веб'у. Много технических подробностей и решений, точно интересное чтение

#data #bigtech #search #readings
7👍21
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
От источника, пожелавшего остаться анонимным. Звонок с городского номера федерального госоргана:

Госорган: здравствуйте, почему вы не хотите пройти наш экспертный опрос?

Эксперт: потому что меня нет в списке экспертов на вашем сайте

Госорган: Мы скрыли список экспертов по соображениям безопасности

Эксперт: Какой безопасности?

Госорган: Нашей. А вдруг кого-то из экспертов признают иноагентами, а нам отвечать
😁37🤣106🗿4😱1💊1
О предубеждениях программистов

На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением ChatGPT, а потом весь механизм полностью заменили на движок llama.cpp (не путайте с Ollama) с помощью и перевели всю работу с данными в режим local-only. Это когда через интерфейс приложения можно скачать одну из двух моделей Llama 3.2 или Qwen 2.5 и с их помощью локально с данными работать.

Надо ли объяснять что тут не так? В первом случае они сделали решение которое было cloud-only, без облачного сервиса не работало. Во втором случае они сделали решение local-only, очень приватное, и почти неработоспособное. Кроме того что оно кушает много памяти и диска, оно ещё и замораживает компьютер пользователя, а пользователи могут быть не самые продвинутые по навыкам и по технике.

Мне буквально пришлось им объяснять что для большинства пользователей нужен выбор и оба подхода некорректны по умолчанию. Кого-то не пугают облачные LLM, у кого-то есть собственная инфраструктура с развертными Ollama или LM Studio на сервере или десктопе с сетевым подключением, кто-то пользуется хостинг провайдерами - Digital Ocean, Nebius, Яндекс.Клауд и др.

Поскольку эту команду я знаю достаточно давно и они из open source мира то подозреваю что первоначальное использование ChatGPT было скорее экспериментом, а потом они стремительно переключились на local-first решение как то которое они считают наиболее приемлемым.

Я совсем не уверен что мне удастся их переубедить, потому что у них есть два мощнейших предубеждения. Это Анти бигтех и Анти ИИ (пока не могу подобрать названий получше).

Первое заключается в том чтобы не использовать никаких сервисов биг техов и других крупных облачных провайдеров. Это довольно мощная установка в большой часть европейского open source движения в том что использовать только открытые альтернативы. Не использовать хостинг биг техов, не использовать их облачные сервисы, не использовать системы звонков/коммуникации и тд. Эта предустановка распространяется и на все американские ИИ стартапы и сейчас множится на концепцию цифрового суверенитета ЕС.

Второе - Анти ИИ, происходит от Анти бигтех, но с установкой того что большие ИИ компании "сжирают Интернет" и все открытые цифровые артефакты: открытый код, открытые данные, книги, статьи, иные открытые результаты, всё идёт в их обучение. Она выражается в том что обработка данных через ИИ не реализуется чтобы "не кормить ИИ своими данными".

Всё это в дополнение другим традиционным предубеждениям программных команд: Не изобретено здесь, Пользователь всегда неправ и ещё многих других.

#opensource #programming #thoughts #data #ai
18🔥8💯71
Что-то я текст написал, а поделиться им забыл. Цифровой ящик пандоры про национальный госмессенжер, национальную википедию и национальный ИИ. Пока писал меня не покидало ощущение что записываю какие-то банальности, очевидности-высоковероятности, но решил зафиксировать текстом.

#readings #texts #writings
1👍238🔥3🤝1
Тем временем в Европе сворачивается история с раскрытием реестров конечных бенефициаров компаний. Сами данные продолжают собирать, но теперь эти реестры убирают из открытого доступа в тех странах где ранее публиковали. Свежее решение датского регулятора (на датском языке) по которому с 1 сентября 2025 г. датский реестр бенефициаров компаний публиковаться не будет. Их кейс когда-то неплохо разбирали в рамках проекта Open Ownership в 2023 году и в целом в мире всё постепенно двигалось к большей открытости бенефициаров до директивы (ЕС) 2024/1640 от 31 мая 2024 которая возникла после решения европейского суда.

История эта интересная, но у меня пока нет времени написать про неё лонгрид. Она ровно о том что защита персональных данных, а в данном случае GDPR, главный ограничитель открытости коммерческих реестров.


#opendata #europe
😢85👍4💔21🔥1
Новый протокол Agent Communication Protocol (ACP) в открытом коде от IBM Research, предполагается как альтернатива MCP.

Что тут скажешь, идея может и хорошая (надо проверять как там и что), а вот реальное применение может возникнуть только при проникновении в наиболее популярные сервисы и инструменты.

#ai #ibm #opensource
1👍53
В продолжение текста о предубеждениях программистов, команда с которой я тогда общался - это команда Open Data Editor, open source приложения от Open Knowledge Foundation для валидации данных, изначально публикуемых на порталах открытых данных вроде CKAN.

Мне вообще для многих разных задач всегда был нужен похожий инструмент который помогал бы в задачах обработки и верификации данных и изначально ребята ребята его и делали с возможностью подготовить данные для публикации в CKAN/Zenodo, почистить их и тд.

Теперь:
1. Они добавили ИИ функции исключительно через локальные LLM
2. Убрали публикацию в CKAN и Zenodo
3. Переосмыслили приложение в сторону data exploration и data validation, практически полностью убрав все функции редактирования данных.

В итоге:
- ИИ функции не работают поскольку используются самые слабые ИИ модели и всё выполняется локально
- ориентация на нетехнических пользователей
- всё сделано в виде десктопного приложения, но у разработчиков нет компьютеров с Windows поэтому на Windows они не тестируют и приложение на Windows регулярно падает, скорее всего также из-за ИИ функций
- валидация данных без последующей возможности изменения данных не приносит счастья, даже если ошибки найдены
- у пользователей постоянный вопросы "какие промпты писать?" потому что оказывается что промптинг сам по себе на бытовые вопросы - это несложно, а промптинг в отношении данных - вопросы вызывает.

По моим ощущениям всё это скорее печально, но вообще экосистема открытых данных резко контрастирует с инструментами для дата аналитиков. Есть ощущение что она очень сильно отстаёт и ориентируется на пользователей с весьма низкими навыками вместо обучения их к применению более развитых инструментов. Причём на пользователей из наименее развитых стран, при этом не учитывая что у них нет достаточно мощного оборудования для работы с LLM локально.

Другой подход есть, к примеру, у расширения ИИ для OpenRefine которое позволяет обрабатывать данные подключая разных провайдеров, Ollama или Grok или OpenRouter.

А пока получается что удобного инструмента для публикации в каталогах данных нет(

#opensource #thoughts #data #opendata #tools
🤔4👍32
В рубрике полезных инструментов для работы с данными
- Textplot DuckDB Extension расширение для DuckDB для создания симпатичных текстовых графиков. Для всех кто любит работать в консоли
- DataKit сервис и одноимённый стартап по data exploration и анализу качества данных с помощью ИИ ассистента и тетрадок + визуализация. Выглядит как удобный рабочий инструмент аналитика, по ощущениям очень похожий на Mode. Цена пока неизвестна

#data #dataquality #datatools
61
Кстати про инструменты которые относятся к data exploratory (изучение данных) включая визуализацию, контроль качества, поиск инсайтов и тд. Вот тот самый DataKit что я приводил ранее - это один из примеров таких инструментов и пример целого семейства/типа таких инструментов - работающих только в браузере.

В их основе DuckDB-WASM с возможностью вести всю обработку данных в браузере пользователя и таких инструментов всё больше. Это QuackDB, Duck-UI, SQL Workbench, PondPilot, Quacklytics, DB Pilot, Galaxy и другие. В некоторых уже есть встроенные ИИ ассистенты, в других в планах, но инструментов много.

Архитектура работы через DuckDB-WASM так привлекательна по нескольким причинам:
1. Вся нагрузка остаётся на пользовательском устройстве и на подключенной ИИ модели. Нагрузка на сам сервис минимальна.
2. Данные не выходят за контур устройства пользователя, кроме случаев когда пользователь осознанно хочет проаналитизировать данные с помощью LLM.

DuckDB-WASM не единственный пример движка обработки данных внутри WASM, есть и другие.

Важно что настольные приложения для обработки и анализа данных включая data exploration уже становятся моветоном.

#ai #datatools
52👍1
TRAIGA. Texas Responsible Artificial Intelligence Governance Act. Свежий закон штата Техас накладывающий обязательства на компании ИИ предоставляющие услуги гражданам, в первую очередь чат-боты, госорганы использующие ИИ.

TRAIGA запрещает создание или использование ИИ-систем с намерением:
- Побуждать к самоубийству, вреду себе или другим, или к преступной деятельности
- Нарушать или ограничивать чьи-то федеральные конституционные права
- Наносить незаконную дискриминацию против защищённых классов (например, по расе, полу, возрасту и т. д.).
- Создавать или распространять детскую порнографию или неправомерные дипфейки, включая текстовые системы, обманывающие пользователей, выдавая себя за ребёнка

А также госорганам запрещается использовать ИИ для социального скоринга и госорганы обязываются уведомлять пользователя простым и понятным языком о том что те взаимодействуют с ИИ.

Это не все изменения, о них стоит почитать в обзорах законов. Он вступает в силу с 1 января 2026 года.

#regulation #usa #ai
4👍4🔥1
The State of Python 2025 результаты исследования на основе опросов Python разработчиков от команды PyCharm.

Ключевые выводы:
1. 51%+ разработчиков используют Python для работы с данными
2. Существенный рост использования FastAPI
3. Каждый третий разработчик контрибьютит в открытый код
4. Существенный рост числа модулей на Python написанных на Rust
5. Среди баз данных доминирует PostgreSQL
6. Почти половина разработчиков уже используют или планируют использовать AI агентов

#opensource #python #trends
👍81
В Великобритании Правительство объявило о финансировании конкурса на создание продуктов на основе ИИ по мониторингу и предупреждению преступлений. Сейчас уже выделили £4 миллиона на создание прототипов, а до 2030 года планируют запустить полноценно работающую систему способную предсказывать преступления в конкретных локациях. Это не как в фильме Особое мнение, а, по сути, некоторая вероятностная модель, но ИМХО, неизбежно когда такие системы смогут работать в реальном времени и отслеживать вероятность преступлений не просто по критериям места, а по критериям наличия в конкретных местах лиц определённой категории.

Я помню что в Великобритании - это не первый проект в этом направлении у них как минимум было множество больших экспериментов по интеграции баз данных и профилактики преступлений. Эксперименты были не то чтобы очень результативные, но, как видно, тенденция сохраняется.

И не стоит думать что подобное не проектируют и не делают в странах где об этом публично не заявляют.

#policy #ai #crime #uk
2👍2🔥2🙏2🤨2
Ещё один слегка нестандартный каталог и сервис работы с данными Cecil. Это сервис доступа к геоданным через API причём устроен он так что там есть только сайт визитка, а всё остальное, включая регистрацию пользователя делается через API запросы. Все примеры описывают работу с данными через Geopandas, а список датасетов приведен в документации.

В итоге основная фича в получении доступа к гармонизированным геоданным с возможностью их получения и обработки в определённой территории.

Вообще же каталоги геоданных явно развиваются в сторону API first, в большей степени чем многие другие данные.

#opendata #geodata
👍4🙏1🌭1
Читаю хороший текст Metadata as a Data Model о восприятии метаданных как основы архитектуры данных и дата модели. Автор не из мира технологий, а консультант по онтологиям, что чувствуется в примерах из библиотечного мира и других предметных областей где проектирование моделей данных первично их технической реализации.

Что важно понимать про метаданные и стандарты, то что их существование это результат совместных размышлений, а то есть кто-то совместно хорошо подумал чтобы они появились и даже если эти стандарты неидеальны, они покрывают если не полностью то существенно сценарии применения данных в отношении которых они написаны. Через призму опыта их написавших, несомненно. Поэтому если Вы придумали какую-то спецификацию или стандарт в одиночку, то, скорее всего, это плохая спецификация. За очень редким исключением непревзойдённого опыта, но люди с таким опытом обычно понимают как спецификации разрабатываются и в одиночку их тоже не пишут.

Стандарты метаданных - это одновременно, фундамент и ограничитель. Шаблон мышления и практического воплощения и базовые знания для входа во многие профессии. Например, стандарт Dublin Core в какой-то момент вырос из AACR и MARC, стал основой для описания большей части онлайн контента даже если формально он в их описании не упомянут. Большая часть разработчиков, де-факто, описывают существующие или новые типы объектов аналогично, используя базовые шаблоны, в первую очередь естественности восприятия наличия определённых характеристик и параметров у этих объектов.

Это ведь кажется очевидным что у каждого объекта есть название, описание, дата когда он создан, дата когда он изменён и тд. Готовые стандарты и спецификации упрощают работу с любыми стандартизированными данными.
...

#metadata #dataannotations #dataarchitecture
82
Во Франции власти с 1 сентября для госслужащих стал обязательным мессенжер Tchap для всех рабочих коммуникаций.

Что важно про него знать:
1. Это мессенжер только для госслужащих, он не имеет статус "национального", граждане там не планируются
2. Он основан на открытом протоколе Matrix и сам он на базе открытого кода https://github.com/tchapgouv
3. Разработан французским министерством DINUM (вернее компанией Element по их заказу)
4. Это именно мессенжер, без всяких там функций медиа вроде каналов и тд. Он ориентирован на организацию приватного общения и только
5. Аналогичный госмессенжер есть в Германии, называется BundesMessenger, он ещё не обязательный для госслужащих, но потенциально может таким быть. Тоже с открытым кодом, тоже на базе протокола Matrix, тоже имеющий официальный статус.
6. В обоих мессенжерах французском и германском отсутствует слежка за пользователями, там нет встроенных коммерческих трекеров и это легко проверяется благодаря открытости кода.

Больше информации о Tchap в их презентации от сентября 2024 г. с конференции Matrix, можно узнать что и до обязательности он уже активно использовался.

#opensource #france #germany
👏22👍11🔥3
Полезные ссылки про данные, технологии и не только:
- DuckDB in Science подборка научных работ и подскастов про научную часть создания DuckDB, много полезного про внутреннее устройства СУБД в целом и DuckDB в частности.
- rainfrog утилита на Rust позволяющая просматривать таблицы в консоли в режиме TUI (Text user interface), для тех кто любит интерактивные инструменты и не любит GUI. Поддерживает Postgres, MySQL, Sqlite. Как фанат TUI я люблю такие инструменты, хотя и для таблиц тут всё непросто.
- Bytebot настольный ИИ агент с открытым кодом, живёт в отдельном контейнере Docker'а с полноценной версией ОС Ubuntu и умеет всяческие операции по поиску и не только. Один из многих активно продвигаемых сейчас. Из плюсов - изолированный контейнер и свободный выбор LLM. Идея про изолированный контейнер мне очень нравится, она весьма логична.
- NoteGen кроссплатформенный редактор заметок с помощью ИИ использующий в своей основе Markdown. Хотел бы я сказать что это потенциальная замена Obsidian, но пока нет, хотя многие возможности кажутся интересными. Можно подключить практически любую LLM и использовать для написания заметок. Из минусов - по умолчанию китайский язык, очень многое с китайского не переведено, но развиваются быстро и поддерживают синхронизацию заметок через Github/и другие Git-like репы. Для разработчиков может быть удобным инструментом.

#opensource #tools #ai #notetaking #aiagents #rdbms
53❤‍🔥1🔥1