Ivan Begtin
9.35K subscribers
2.12K photos
3 videos
103 files
4.84K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata
Ivan Begtin
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах. Описание очень симпатично и кажется…
Про состояние открытости данных в России, краткая сводка на сегодня 16 апреля 2025 г.

Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)

Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.

Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API

#opendata #stateofopendata