Ivan Begtin
9.32K subscribers
2.11K photos
3 videos
103 files
4.84K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.

Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.

Условия использования не указаны, исходим из того что это Public Domain.

Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.

Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center

#opendata #russia #cryptocurrencies #crypto #datasets
В задачах качества данных есть такое явление как Data quality reports. Не так часто встречается как хотелось бы и, в основном, для тех проектов где данные существуют как продукт (data-as-a-product) потому что клиенты интересуются.

Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.

Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports

#opendata #datasets #dataquality
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.

Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.

Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.

А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.

Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/

#opendata #datasets #data #datatools #france
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata
Ivan Begtin
Любопытный проект Local deep research [1] локальный privacy-first инструмент для постановки заданий LLM для комплексных исследований. По аналогии с режимами deep research в OpenAI, Perplexity и других облачных прдуктах. Описание очень симпатично и кажется…
Про состояние открытости данных в России, краткая сводка на сегодня 16 апреля 2025 г.

Негативное
- федеральный портал data.gov.ru так и не [пере]запущен и недоступен уже несколько много лет.
- портал статистики ЕМИСС fedstat.ru де-факто заморожен в любом развитии, многие показатели удалены, другие не обновляются. Публикуемые открытые данные неполны. Каких либо изменений в функциональности нет с момента его запуска.
- портал криминальной статистики crimestat.ru не обновляется с начала 2022 года
- портал данных Минкультуры России opendata.mkrf.ru не обновляется кроме ряда наборов данных, при выгрузке крупнейших датасетов выдаёт ошибку
- большинство порталов открытых данных субъектов федерации ФОИВов не обновлялись более 6 лет и содержат устаревшие и бесполезные наборы административных данных малого объёма
- госполитика поощрения раскрытия данных научных исследований отсутствует
- госполитика публикации открытых геопространственных данных отсутствует, почти все наборы геоданных имеют те или иные ограничения (не свободны)

Нейтральное
- идут разговоры на государственном уровне про публикацию датасетов для AI продолжаются, есть вероятность что хотя бы часть из них будут общедоступны
- наборы данных созданные исследователями из РФ продолжают публиковаться на платформах Kaggle, Hugging Face, Github и др. На сегодняшний день государственная политика по запрету этого не введена.

Позитивное
- Банк России начал публиковать многие из своих таблиц/датасетов в форматах доступных через REST API
- ФНС России продолжает публиковать и обновлять данные у себя на сайте www.nalog.gov.ru как старые датасеты, так и публикуют новые данные. Не всегда в разделе открытых данных, иногда в форме страниц с недокументированным API

#opendata #stateofopendata
Про состояние открытости данных в Армении, ещё более краткая сводка😜 на сегодня 16 апреля 2025 г.

Негативное
- Правительство Армении не публикует никаких открытых данных, не имеет таких обязательств и даже не прописало их публикацию в обещаниях в рамках Open Government Partnership, в отличие от других стран участников.
- внутренний спрос на доступность госданных очень невысок, требуется много усилий на раскачку сообщества

Нейтральная
- многие данные доступны на сайтах, требуется их парсинг и описание. Многое не публикуется не из-за политики закрытости, а по бедности, нет ресурсов и явного нет запроса.

Позитивное
- данные публикует сообщество, конкретно наше Open Data Armenia (opendata.am и ТГ канал @opendataam)

#opendata #stateofopendata #armenia
В рубрике интересных порталов открытых данных, свежий портал открытых данных Министерства образования Франции [1]. Сделан на базе облачного ПО OpenDataSoft и предоставляет 242 набора данных по темам образования, спорта и молодёжи.

У французской компании OpenDataSoft очень неплохой продукт каталога данных который довольно популярен на субнациональном уровне во Франции и ряде других стран, в основном ЕС. В последние версии они туда добавили новые функции такие как анализ данных и отображение их карте и в других форматах.

Например, календарь министра национального образования [2] или отображение справочника школ на карте [3], но, конечно, самое главное - это продвинутое API и экспорт данных в разных форматах: CSV, JSON, Excel, Parquet и ещё 5 форматов для геоданных.

У OpenDataSoft в итоге очень хороший прогресс с их публичными каталогами данных. Я бы их порекламировал, но в РФ их каталог неприменим, а, к примеру, для Армении слишком дорог для общественных проектов.

При всей хорошей организации их каталога, при этом, отмечу что самое большое число датасетов в них которое я видел было около 40 тысяч наборов данных. Для сравнения в CKAN есть каталоги на 1+ миллионов датасетов. Поэтому качество не значит масштаб, а масштаб не равен качеству.

Тем не менее можно увидеть как теперь публикует данные Минобразования Франции.

Ссылки:
[1] https://data.education.gouv.fr
[2] https://data.education.gouv.fr/explore/dataset/fr-en-agenda-ministre-education-nationale/calendar/?disjunctive.uid&sort=dtstart&calendarview=month
[3] https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/map/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement&location=9,45.88427,3.1723&basemap=jawg.streets

#opendata #education #france #datasets #data #datacatalogs
Оказывается Фонд Викимедиа относительно недавно, ещё в 2022 году создал Wikimedia Enterprise [1] отдельную компанию предоставляющую современные API корпоративного уровня (modern enterprise-grade APIs) для Википедии и других их проектов.

Обещают 850+ наборов данных, 100+ миллионов страниц.

А теперь ещё и договорились с Google о выкладывании на Kaggle снэпшотов [2].

Сейчас их датасет представлен в виде 54 JSONL файлов англоязычной и франкоязычной вики и составляет [3] 113 гигабайт

Ссылки:
[1] https://enterprise.wikimedia.com/
[2] https://enterprise.wikimedia.com/blog/kaggle-dataset/
[3] https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/data

#opendata #datasets #wikipedia #api
У меня много рефлексии по поводу всего что я слышал, читал и видел в записи с прошедшей в России конфы Data Fusion. Ещё несколько лет я зарёкся слишком много думать про госполитику в работе с данными в РФ и вместо этого пишу в жанре "как это работает у них" для понимания того как это не работает в РФ, но сказать могу об этом многое, наверное даже слишком многое.

Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.

Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)

Китайская модель
основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки

Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес

Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.

Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.

#opendata #data #regulation #russia
В рубрике как это устроено у них проект bustimes.org с расписаниями автобусов в Великобритании и картой их движения в реальном времени. Автор обрабатывает данные из примерно десятка источников, геокодировал все остановки и позволяет спланировать поезки и найти сайты и контакты перевозчиков.

Пример проект на открытых данных, преимущественно используя открытые API транспортных служб Великобритании.

Такого нехватает для многих стран, хотя бы для региональных поездок.

Неидеальный, но открытый и полезный продукт. Жаль что там только Великобритания.

#opendata #transport #uk
Я для себя какое-то время назад составил список проектов по дата инженерии и аналитики для изучения и отслеживания.

Не у всех есть открытый код и некоторые я бы отдельно отметил:
- DoltHub - продукт и сервис по работе с данными как с Git, большой каталог данных. Активно используется в игровой индустрии и не только
- Mode - стартап Бэна Стенцила про рабочее место для аналитика. Полезно
- CastorDoc - дата каталог с сильным акцентом на автодокументирование. Его недавно купили Coalesce
- Clickhouse - open source продукт и сервис одной из лучших аналитической СУБД
- DuckDB - про это я пишу часто, open source продукт для аналитической базы и мощный инструмент запросов. Возможно лучший или один из лучших инструментов работы с parquet файлами
- CKAN - open source каталог открытых данных активно трансформирующийся в более человечный продукт PortalJS, в сильной конкуренции с другими продуктами для каталогов открытых данных
- OpenDataSoft - французский стартап облачного продукта каталога открытых данных. Не самый популярный, но имеет множество уникальных возможностей

А также я веду большую коллекцию продуктов с открытым кодом который я собрал в структурированных списках на Github вот тут https://github.com/ivbeg?tab=stars

#opendata #data #dataanalytics #dataengineering
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.

Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]

Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации

Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/

#opendata #datasets #statistics #imf
В CKAN появилась поддержка схемы метаданных Croissant [1], переводится как круассан, используемой для публикации наборов данных для машинного обучения. По этой схеме уже публикуются данных в Hugging Face, Kaggle и OpenML, а теперь ещё и в репозиториях на CKAN.

Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.

Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard

#opendata #ckan #opensource #datacatalogs #datasets
В рубрике как это устроено у них портал геоданных Всемирной продовольственной программы [1]. Работает на базе STAC Server и реализует спецификацию STAC для доступа к данным спутникового мониторинга.

Всего 140 наборов данных по погодным аномалиям, осадкам, температуре воздуха и другим показателям климата по наиболее уязвимым, в основном, наиболее бедным развивающимся странам.

Особенность STAC серверов в терминологии и способе предоставления данных. Наборы данных там называются каталогами (Catalogs), а файлы как Предметы (Items). Как правило файлы - это GeoTIFF изображения и они все отображают одну и ту же территорию в разные моменты времени.

Открытых STAC серверов в мире уже немало и становится всё больше.

В Dateno такие порталы собраны в реестре, но пока не индексируются в поиске. В основном потому что файлов к каталогу может быть приложено реально тысячи, а Dateno индексирует, в основном, классические каталоги данных где даже сто файлов в одном датасете - это много. Но в будущем эти данные будут проиндексированы тоже.

P.S. Кстати в РФ Роскосмос тоже публикует открытые данные в виде STAC сервера [2]. Немного удивительно, да?

Ссылки:
[1] https://data.earthobservation.vam.wfp.org/stac/#/?.language=en
[2] https://api.gptl.ru/stac/browser/web-free

#opendata #datasets #un #wfp #geodata
В рубрике как это работает у них один из лучших из известных мне порталов открытых данных это IDB Open Data [1] Межамериканского банка развития. Его особенность это совмещение публикации открытых данных, статистических индикаторов и исследовательских данных.

Внутри всё работает на базе CKAN со значительной кастомизацией и добавлением множества дополнительных фильтров включая геопокрытие, тематику и многое другое. А индикаторы представлены в виде файлов ресурсов приложенных к датасетам, например [2], у них нет визуализации, но их можно скачать.

Это само по себе любопытный подход к публикации, и данных, и индикаторов.

Ссылки:
[1] https://data.iadb.org
[2] https://data.iadb.org/dataset/abea491d-2123-4aed-b94a-5dcd057e4fad/resource/cdf56d56-16b7-4ab1-a76c-3637ca49068f

#opendata #datacatalogs #datasets #latinamerica
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.

Статистика ЕАЭС
[1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.

Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года

И так со всеми остальными материалами в этом разрезе

P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли

Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat

#russia #closeddata #opendata #statistics
В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.

Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.

Ссылки:
[1] https://www.hydrosheds.org

#opendata #geodata #hydrology #openaccess
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets
TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]

Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.

Авторы пишут что она превосходит аналогичные foundation models на 8%

Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171

#geodata #opendata #ibm #ai #aimodels