Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Оказывается Foursquare анонсировали недавно [1] Foursquare Geospatial Intelligence Platform, нигде кроме анонса, даже на их сайте в такой формулировке не находится, но из анонса видно что они позиционируют три продукта как составные части это платформы.

Это такие продукты как:
- FSQ Graph - база всех точек POI собранных и очищенных в виде данных привязанных к системе геокодирования H3
- FSQ Database - высокопроизводительная база с использованием GPU для SQL аналитики
- FSQ Studio - интерактивный инструмент визуализации данных, в нём же они публикуют некий каталог геоданных (доступен только после авторизации)

И похоже что эти компоненты будут объединены в некий унифицированный продукт.

А ранее команда Foursquare выкладывала огромный набор данных точек интереса по всему миру [2].

Интересно будут ли они расширять доступность их компонентов как открытого кода и будут ли публиковать ещё открытые датасеты или ограничатся объединением текущих продуктов. В любом случае, Foursquare интересный источник, и геоданных, и технологий их визуализации.

Ссылки:
[1] https://location.foursquare.com/resources/blog/products/introducing-the-foursquare-geospatial-intelligence-platform/
[2] https://t.me/begtin/6202

#geodata #dataanalytics #foursquare #opendata
❤‍🔥6👍2
Оказывается ещё в октябре прошлого года в США появился новый Стратегический план Национальной инфраструктуры геопространственных данных (NSDI) на 2025-2035 годы [1]. Кроме всего прочего там, ожидаемо, есть разделы посвящённые публикации датасетов, открытым данным, маркетплейсам геоданных и так далее. А общая установка на то что геоданные должны быть открыты для всех пользователей. Ну и сам план стал более универсальным и 10летним, предыдущие планы были на 5 и на 3 года.

Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.

Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].

На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.

Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.


Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports

#opendata #policy #geodata #usa #strategies #government
1❤‍🔥3🌭2
В рубрике больших интересных наборов данных Global Ensemble Digital Terrain Model 30m (GEDTM30) [1] глобальная цифровая модель рельефа (DTM) в виде двух GeoTIFF файлов оптимизированных для облачной работы (cloud GeoTIFF) общим объёмом чуть менее 39 гигабайт.

Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.

Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].

А также доступен код проекта [3] и пример визуализации в QGIS.

Доступно под лицензией CC-BY 4.0

Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548

#opendata #geodata #datasets
5❤‍🔥11
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata
1👍8
В рубрике как это устроено у них портал геоданных Всемирной продовольственной программы [1]. Работает на базе STAC Server и реализует спецификацию STAC для доступа к данным спутникового мониторинга.

Всего 140 наборов данных по погодным аномалиям, осадкам, температуре воздуха и другим показателям климата по наиболее уязвимым, в основном, наиболее бедным развивающимся странам.

Особенность STAC серверов в терминологии и способе предоставления данных. Наборы данных там называются каталогами (Catalogs), а файлы как Предметы (Items). Как правило файлы - это GeoTIFF изображения и они все отображают одну и ту же территорию в разные моменты времени.

Открытых STAC серверов в мире уже немало и становится всё больше.

В Dateno такие порталы собраны в реестре, но пока не индексируются в поиске. В основном потому что файлов к каталогу может быть приложено реально тысячи, а Dateno индексирует, в основном, классические каталоги данных где даже сто файлов в одном датасете - это много. Но в будущем эти данные будут проиндексированы тоже.

P.S. Кстати в РФ Роскосмос тоже публикует открытые данные в виде STAC сервера [2]. Немного удивительно, да?

Ссылки:
[1] https://data.earthobservation.vam.wfp.org/stac/#/?.language=en
[2] https://api.gptl.ru/stac/browser/web-free

#opendata #datasets #un #wfp #geodata
👍3❤‍🔥21
В рубрике интересных наборов данных и проектов на данных HydroSheds [1] включающий наборы геоданных со всеми озёрами, реками, речными бассейнами, речной сетью, побережью озёр и так далее. Множество датасетов в форматах GDP и SHP и общим объёмом в несколько десятков, может быть, более 100ГБ сжатом виде.

Создан и распространяется World Wildlife Fund US под свободной лицензией для любых способов использования.

Ссылки:
[1] https://www.hydrosheds.org

#opendata #geodata #hydrology #openaccess
1👍15
TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]

Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.

Авторы пишут что она превосходит аналогичные foundation models на 8%

Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171

#geodata #opendata #ibm #ai #aimodels
6🤔1🤨1
В рубрике как это устроено у них EarthBank [1] платформа для удобной визуализации, анализа и извлечения геопривязанных данных, полученных геохимическими лабораториями по всему миру.

Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.

Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.

У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.

Ссылки:
[1] https://ausgeochem.auscope.org.au

#opendata #geodata #geochemistry #mineralogy
👍7🔥31
В рубрике как это устроено у них портал муниципальных данных стран ОЭСР (Local Dat Portal) [1] предоставляет детальную статистику по более чем 100 индикаторам и по всем странам входящим в ОЭСР. Портал появился в ноябре 2024 года и сделан на базе ProtoMap с динамической подгрузкой слоёв.

Ему предшествовал атлас ОЭСР по регионам и городам [2], не столь визуально приятный, но тоже полезный в своё время.

Данные доступны через раздел Regional, rural and urban development [3] на сайте статпортала ОЭСР и на самом сайте ОЭСР [4]

Ссылки:
[1] https://localdataportal.oecd.org
[2] https://www.oecd.org/en/data/tools/oecd-regions-and-cities-atlas.html
[3] https://data-explorer.oecd.org/?fs[0]=Topic%2C0%7CRegional%252C%20rural%20and%20urban%20development%23GEO%23&pg=0&fc=Topic&bp=true&snb=153
[4] https://www.oecd.org/en/data/datasets.html?orderBy=mostRelevant&page=0&facetTags=oecd-policy-areas%3Apa17

#opendata #statistics #geodata #oecd
1🔥9
В рубрике общедоступных, но малоизвестных данных в России.
- Веб-ГИС Климат [1] климатические карты от ИМЭКС СО РАН. В виде статических карт и приложенных к ним данных в формате NetCDF и архив данных, также, в формате NetCDF [2]
- Геопортал ИДСТУ СО РАН [3] портал с геоданными и спутниковыми снимками. Собственная разработка с открытым кодом [4] (правда код забросили лет 5 назад).
- Геопортал Новосибирска [5] на базе COGIS/eLiteGIS, похоже что совместимого с ArcGIS. Много слоёв данных по городу доступно через API
- Московские наборы данных [6] с портала ai.mos.ru. Говорить что они общедоступны нельзя, для доступа надо заполнить форму и получить разрешение. Потенциально хорошо что есть наборы данных которые госорганы в мире вообще не предоставляют, плохо то что нет условий использования и многое вообще должно быть открытыми данными, а не вот так.
- AARI WDC Sea-Ice [7] российский узел мирового центра данных (WDC) для наблюдений за Арктикой. Климатические научные данные за разные временные периоды

Ссылки:
[1] http://climate.scert.ru/
[2] http://climate.scert.ru/Environment/data/archive/
[3] https://geos.icc.ru
[4] https://gitlab.com/fromul/geoservices
[5] https://map.novo-sibirsk.ru/elitegis/rest/services/
[6] https://ai.mos.ru/datasets/?lang=RU
[7] http://wdc.aari.ru/

#opendata #russia #datasets #data #geodata #ai
👍6🔥4
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.

И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.

Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/

#opendata #geodata #datasets
❤‍🔥10
Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉

Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.

Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.

GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.

ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.

Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.

Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.

#opendata #datasets #geodata #search
👍135❤‍🔥2🔥2
Как в мире публикуют геоданные? Крупнейший коммерческий игрок - это компания ArcGIS с их облачными и корпоративными продуктами. В России все активно импортозамещаются на NextGIS, есть и другие коммерческие ГИС продукты и онлайн сервисы.

Однако в мире открытого кода наиболее популярные гео каталога данных - это Geonetwork, GeoNode и, с некоторым допущением, GeoServer.

Geonetwork - это OGC совместимый каталог георесурсов, включая файлы, внешние ссылки. Его активно применяют в Латинской Америке и Евросоюзе, например, EEA geospatial data catalogue, также Geonetwork хорошо расширяется метаданными и используется в Европейской инициативе INSPIRE по публикации системно значимых геоданных странами участниками ЕС. Geonetwork правильнее всего рассматривать как поисковик и агрегатор. В реестре каталогов данных Dateno 568 инсталляций Geonetwork

GeoNode - это продукт наиболее приближенный именно к каталогу данных. Его используют для публикации данных вручную и он поддерживает множество стандартов доступа к данным, включая DCAT для порталов открытых данных. Например, его использует Правительство Казахстана как Геопортал НИПД. В реестре каталогов Dateno 295 записей о каталогах данных на базе Geonode.

И, наконец, Geoserver - это один из наиболее популярных open source геопродуктов, используется повсеместно для публикации слоёв карт и других данных как OGC сервисов. В реестре Dateno 1111 таких серверов. Главный недостаток - это отсутствие/неполнота метаданных, которые чаще описываются в надстройке поверх данных внутри Geoserver.

В России всего 22 инсталляции на базе этих продуктов, большая часть из них недоступна с IP адресов не из российских подсетей. Для сравнения, в странах ЕС их более 600, не считая других геопорталов.


#opendat #datacatalogs #opensource #data #geodata #geonetwork #geonode #geoserver
👍531
В рубрике доступных открытых геоданных в России:
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы

#opendata #geodata #datasets #maps
👌101
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.

Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.

Конкретно вы Кыргызстане данные собираются с 36 метеостанций.

На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]

Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru

#opendata #openapi #api #geodata #datasets #kyrgyzstan
👍5
Spatial Desktop свежий инструмент с от Foursquare для визуализации геоданных. Основан на их другом open source продукте SQLRooms и стоит от $25 в месяц.

Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.

Главный недостаток - пока есть версия только для Mac.

#data #datatools #geodata
🔥9🌚1💅1
Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.

Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.

В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth

#geodata #opendata #ai
6👍5🔥4
Полезное чтение про данные, технологии и не только:
- Practices for Collecting, Managing, and Using Light Detection and Ranging Data (2025) хороший обзор практик сбора, обработки и публикации данных измерений LIDAR где можно узнать о том как, зачем и в каком виде эти данные собираются и где их искать.
- Enriching Unstructured Cultural Heritage Data Using NLP обогащение неструктурированных данных об объектах культурного наследия с помощью LLM.

#readings #ai #opendata #data #geodata
1👍41
Ещё один слегка нестандартный каталог и сервис работы с данными Cecil. Это сервис доступа к геоданным через API причём устроен он так что там есть только сайт визитка, а всё остальное, включая регистрацию пользователя делается через API запросы. Все примеры описывают работу с данными через Geopandas, а список датасетов приведен в документации.

В итоге основная фича в получении доступа к гармонизированным геоданным с возможностью их получения и обработки в определённой территории.

Вообще же каталоги геоданных явно развиваются в сторону API first, в большей степени чем многие другие данные.

#opendata #geodata
👍4🙏1🌭1
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)

#opendata #datasets #geodata
🔥20🤩2