Ivan Begtin
9.35K subscribers
2.12K photos
3 videos
103 files
4.84K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.

Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]

Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации

Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/

#opendata #datasets #statistics #imf
В CKAN появилась поддержка схемы метаданных Croissant [1], переводится как круассан, используемой для публикации наборов данных для машинного обучения. По этой схеме уже публикуются данных в Hugging Face, Kaggle и OpenML, а теперь ещё и в репозиториях на CKAN.

Хорошо то что CKAN используется во многих особо крупных каталогах данных вроде data.europa.eu и data.gov что повышает вероятностью публикации датасетов для ML на национальных порталах открытых данных.

Ссылки:
[1] https://ckan.org/blog/bridging-ckan-and-machine-learning-introducing-support-for-the-croissant-standard

#opendata #ckan #opensource #datacatalogs #datasets
В рубрике как это устроено у них портал геоданных Всемирной продовольственной программы [1]. Работает на базе STAC Server и реализует спецификацию STAC для доступа к данным спутникового мониторинга.

Всего 140 наборов данных по погодным аномалиям, осадкам, температуре воздуха и другим показателям климата по наиболее уязвимым, в основном, наиболее бедным развивающимся странам.

Особенность STAC серверов в терминологии и способе предоставления данных. Наборы данных там называются каталогами (Catalogs), а файлы как Предметы (Items). Как правило файлы - это GeoTIFF изображения и они все отображают одну и ту же территорию в разные моменты времени.

Открытых STAC серверов в мире уже немало и становится всё больше.

В Dateno такие порталы собраны в реестре, но пока не индексируются в поиске. В основном потому что файлов к каталогу может быть приложено реально тысячи, а Dateno индексирует, в основном, классические каталоги данных где даже сто файлов в одном датасете - это много. Но в будущем эти данные будут проиндексированы тоже.

P.S. Кстати в РФ Роскосмос тоже публикует открытые данные в виде STAC сервера [2]. Немного удивительно, да?

Ссылки:
[1] https://data.earthobservation.vam.wfp.org/stac/#/?.language=en
[2] https://api.gptl.ru/stac/browser/web-free

#opendata #datasets #un #wfp #geodata
В рубрике как это работает у них один из лучших из известных мне порталов открытых данных это IDB Open Data [1] Межамериканского банка развития. Его особенность это совмещение публикации открытых данных, статистических индикаторов и исследовательских данных.

Внутри всё работает на базе CKAN со значительной кастомизацией и добавлением множества дополнительных фильтров включая геопокрытие, тематику и многое другое. А индикаторы представлены в виде файлов ресурсов приложенных к датасетам, например [2], у них нет визуализации, но их можно скачать.

Это само по себе любопытный подход к публикации, и данных, и индикаторов.

Ссылки:
[1] https://data.iadb.org
[2] https://data.iadb.org/dataset/abea491d-2123-4aed-b94a-5dcd057e4fad/resource/cdf56d56-16b7-4ab1-a76c-3637ca49068f

#opendata #datacatalogs #datasets #latinamerica
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.

Статистика ЕАЭС
[1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.

Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года

И так со всеми остальными материалами в этом разрезе

P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли

Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat

#russia #closeddata #opendata #statistics
В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.

Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.

Ссылки:
[1] https://www.hydrosheds.org

#opendata #geodata #hydrology #openaccess
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets
TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]

Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.

Авторы пишут что она превосходит аналогичные foundation models на 8%

Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171

#geodata #opendata #ibm #ai #aimodels
В рубрике полезных ссылок про данные, технологии и не только:
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.

Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/

#opendata #datatools #opensource #datapolicy #ai
В рубрике как это устроено у них EarthBank [1] платформа для удобной визуализации, анализа и извлечения геопривязанных данных, полученных геохимическими лабораториями по всему миру.

Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.

Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.

У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.

Ссылки:
[1] https://ausgeochem.auscope.org.au

#opendata #geodata #geochemistry #mineralogy
В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.

Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.

Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.

У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.

Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/

#opendata #statistics
Подборка регулярных ссылок про данные, технологии и не только:
- Smithy opensource генератор кода и документации для сервисов с собственным языком их описания, от команды Amazon AWS. Казалось бы зачем если есть OpenAPI/Swagger, но поддерживает множество стандартов сериализации и транспорта

- Unlock8 кампания по продвижению идеи того что навыки программирования и работы с ИИ должны быть обязательными для всех школьников в США. В подписантах сотни CEO крупнейших ИТ компаний. Тотальное обучение программированию может быть чуть-ли не единственным объективным решением после массового проникновения AI в школы. Лично я поддерживаю эту идею, но не в США конкретно, а применительно ко всем странам.

- SmolDocling особенно компактная модель распознавания образов для преобразования документов. Доступна на HuggingFace. Пишут что очень хороша, но в работе её ещё не видел. Надо смотреть и пробовать.

- NIH blocks researchers in China, Russia and other countries from multiple databases администрация Трампа с 4 апреля ограничили доступ исследователей из Китая, Ирана, России, Кубы, Венесуэлы, Гонконга и Макау ко множеству научных репозиториев данных связанных со здравоохранением. Это так называемые controlled-access data repositories (CADRs), репозитории доступ к которым предоставляется по запросу.

- A First Look at ODIN 2024/25: A Decade of Progress with New Risks Ahead обзор доступности и открытости данных по статистике по практически всем странам. Краткие выводы: открытости в целом больше, больше данных доступно, больше свободных лицензий и машиночитаемости. Я лично не со всеми их оценками могу согласится, но это объективно важный монитор общей доступности статистики в мире. Можно посмотреть, например, изменения в доступности данных по РФ за 2020-2024 годы. Кстати, если посмотреть подобно на индикаторы, то видно что оценщики не смотрели на системы типа ЕМИСС, а оценивали только по доступности данных на официальных сайта Росстата и ЦБ РФ. О чём это говорит? Нет, не о их невнимательности, а о том что сайт Росстата устарел морально и технически.

#opensource #opendata #ai #sanctions