Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.
Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf
#opendata #data #dataengineering #readings #ai #dataquality #geodata
GitHub
GitHub - vanna-ai/vanna: 🤖 Chat with your SQL database 📊. Accurate Text-to-SQL Generation via LLMs using RAG 🔄.
🤖 Chat with your SQL database 📊. Accurate Text-to-SQL Generation via LLMs using RAG 🔄. - vanna-ai/vanna
Ivan Begtin
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах. Описание очень симпатично и кажется…
Про состояние открытости данных в России, краткая сводка на сегодня 16 апреля 2025 г.
Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)
Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.
Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API
#opendata #stateofopendata
Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)
Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.
Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API
#opendata #stateofopendata