Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Geoexplorer Berlin [1] сервис навигации по геоданным Берлина, интерфейс над их каталогом данных на базе Geonetwork.

Отличительная особенность в интеграции ChatGPT в интерфейс и это выражается в генерации описания того зачем нужен конкретный датасет, дословно: "На какие вопросы отвечает этот датасет?" и в автодокументировании данных. А также в поиске по данным на естественном языке. Немецком языке, конечно же.

Данных там немного, но функции любопытные. Есть что изучить и применить.

Разработано в Technologie Stiftung Berlin [2], открытый код под лицензией MIT [3]

Ссылки:
[1] https://geoexplorer.odis-berlin.de/
[2] https://www.technologiestiftung-berlin.de/
[3] https://github.com/technologiestiftung/odis-geoexplorer

#opendata #geodata #datasets #ai #opensource #germany #berlin
Не карта, а инспектор рентгеновских данных (с)
Новый сервис от Overture Maps, консорциума по расширению данных OSM новыми инструментами и данными в виде как бы карты, но не карты [1]. В описании [2] можно узнать что он построен на динамической подгрузке geoparquet файлов из дампов данных Overture, внутри там WebAssembly с кодом на Rust, а тайлы подгружаются в форме PMTiles [3].

Штука любопытная более чем, и всё с открытым кодом.

Туда же заодно, открылась бета версия карт от Apple [4], позиционируются они явно как альтернатива Google Maps. Но Firefox не поддерживается, увы.

Ссылки:
[1] https://explore.overturemaps.org
[2] https://docs.overturemaps.org/blog/2024/07/24/explore-site/
[3] https://docs.protomaps.com/pmtiles/
[4] https://beta.maps.apple.com

#opensource #apple #maps #geodata #overture
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
В рубрике больших каталогов геоданных - портал ArcGIS и поиск на нём [1] на онлайн сервисе компании Esri .

Ещё до появления хаба открытых данных Esri [2] который используют многочисленные муниципалитеты для публикации геоданных и данных, у Esri был и остаётся сервис поиска по георесурсам которые создавали пользовали их облачной платформы и далее делали их общедоступными.

Эти ресурсы включают: слои карт, карты, сцены, приложения, файлы и дата истории. По большей части, конечно, слои карт и файлы.

Точные объёмы измерить сложно, но вряд ли это меньше чем сотни тысяч гео ресурсов.

Главный минус - ограниченные метаданные ассоциированные с этими ресурсами.

Главный плюс - возможность найти геоданные по странам где собственные геоданные почти не существуют онлайн.

Ссылки:
[1] https://www.arcgis.com/home/search.html
[2] https://hub.arcgis.com

#opendata #arcgis #datasets #geodata #maps
В рубрике как это устроено у них TERN Data Discovery Portal [1] в Австралии, портал открытых исследовательских данных созданный в рамках проекта Terrestrial Ecosystem Research Network на базе Университета Квинсленда и поддерживаемый в рамках National Collaborative Research Infrastructure Strategy.

На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.

Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/

#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
Весьма полезное руководство по форматам файлов геоданных оптимизированных для облаков [1], а это такие форматы как:
Cloud Optimized GeoTIFFs (COG)
- Zarr
- Kerchunk
- Cloud-Optimized HDF5 and NetCDF
- Cloud-Optimized Point Clouds (COPC)
- GeoParquet
- FlatGeobuf
- PMTiles

Многие из них могут быть малоизвестными широкой публике, но они быстро набирают популярность.

Ссылки:
[1] https://guide.cloudnativegeo.org

#dataformats #opendata #geodata #data
В рубрике особо больших наборов данных. Пока в некоторых странах невозможно найти открытыми даже базовые геоданные, в Новой Зеландии Правительство публикует наборы данных LiDAR по отдельным территориям.

Например:
- Southland LiDAR 1m DEM (2020-2024) [1]
- Waikato LiDAR 1m DEM (2021) [2]
- Gisborne LiDAR 1m DEM (2023) [3]

И многие другие. Разброс объёмов данных в формате GeoTIFF от 10 до 65 GB.

В общей сложности это больше десятка терабайт открытых геоданных LiDAR по относительно небольшой стране.

Кроме Новой Зеландии данные LiDAR в больших объёмах доступны во Франции и ряде других развитых стран.

Ссылки:
[1] https://data.linz.govt.nz/layer/113172-southland-lidar-1m-dem-2020-2024/
[2] https://data.linz.govt.nz/layer/113203-waikato-lidar-1m-dem-2021/
[3] https://data.linz.govt.nz/layer/115847-gisborne-lidar-1m-dem-2023/

#opendata #geodata #newzealand #lidar
Forwarded from Open Data Armenia
[RU] Мы работаем над созданием общественного геопортала Армении где можно было бы наглядно смотреть на открытые геоданные, скачивать их, сравнивать, делать визуализации. И для этого мы собираем общедоступные геоданные.

Некоторые источники геоданных уже известны, это:
- проект Sustainable Caucasus [1]
- портал Центра экологических исследований РАН Армении [2]
- портал о земле ArmSIS [3] (более недоступен)
- портал ООН, Humanitarian Data Exchange [4]

С одной стороны геоданных много, и многие уже собраны на data.opendata.am, а с другой точки зрения всегда мало.

Если Вы знаете интересные источники геоданных по Армении/об Армении/Армянских культуре и истории в мире, просим поделиться ими, можно письмом на opendata@opendata.am или в чате в телеграм @opendataamchat.

Данные могут быть в форматах KML, SHP, GeoJSON, GML, API Esri ArcGIS, WFS, WMS, GPX и многие другие.

[EN] We are working on the creation of a public geoportal of Armenia where it would be possible to visually look at open geodata, download them, compare them, make visualizations. And for this purpose we are collecting publicly available geodata.

Some sources of geodata are already known, they are:
- Sustainable Caucasus project [1]
- the portal of the Environmental Research Center of the Armenian Academy of Sciences [2]
- ArmSIS land portal [3] (no longer available)
- UN portal, Humanitarian Data Exchange [4].

On the one hand there is a lot of geodata, and many are already collected on data.opendata.am, but on the other hand there is always not enough.

If you know interesting sources of geodata on Armenia/about Armenia/Armenian culture and history in the world, please share them, you can send an email to opendata@opendata.am or chat in telegram @opendataamchat.

Data can be in KML, SHP, GeoJSON, GML, Esri ArcGIS API, WFS, WMS, GPX and many other formats.

Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] http://og.cens.am:8081/
[3] http://armsis.cas.am/
[4] https://data.humdata.org/group/arm

#opendata #geodata #geoportal #armenia #request
В рубрике как это устроено у них проект PLATEAU [1] в Японии создан Министерством Земель, Инфраструктуры, Транспорта и Туризма и в рамках проекта создано 211 3D моделей городов и территорий Японии.

Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)

Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.

Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/

#opendata #japan #geodata #datasets #bigdata
В рубрике как это устроено у них раскрытие государственных данных в Таиланде, в основном осуществляется на Национальном портале открытых данных [1] где уже опубликовано более 15 тысяч наборов данных.

Одна из особенностей Таиланда в том что раскрытие данных полу-централизовано, у регионов и органов власти существуют свои порталы, но все они являются поддоменами Национального портала, например ranong.gdcatalog.go.th [2], и buengkan.gdcatalog.go.th [3] и созданы на базе движка CKAN. Из всех этих порталов данные автоматически и стандартизировано агрегируются на центральный портал.

Кроме того геоданные с портала отображаются на геопортале страны [4] работающем на базе TerriaJS

Всего в Таиланде порядка 134 порталов открытых данных и каталогов геоданных [5].

У ODI недавно был отчет на тему Таиланда [6] к слову, хорошо оформленный, но довольно слабый поскольку про сам Таиланд там очень мало, а кейсы все по другим странам: Великобритания, Франция, Словакия и тд. В общем-то, возникает вопрос, причём тут Таиланд?

А в целом в Таиланде, как и в большинстве стран Юго-Восточной Азии в последние годы бум раскрытия данных и модернизации раскрытия официальной статистики.

Ссылки:
[1] https://gdcatalog.go.th
[2] https://buengkan.gdcatalog.go.th
[3] https://ranong.gdcatalog.go.th
[4] https://geo.gdcatalog.go.th
[5] https://dateno.io/registry/country/TH
[6] https://theodi.org/insights/reports/empowering-thailands-digital-government-with-open-data/

#opendata #thailand #data #datacatalogs #geodata
В рубрике интересных проектов на данных GeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.

Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]

Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.

Разницу между GeoSeer и Dateno можно описать так:
1. В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. Пока в Dateno нет расширенного вывода метаданных для георесурсов

В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.

Ссылки:
[1] https://www.geoseer.net
[2] https://t.me/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats

#opendata #datasearch #datasets #geodata #spatial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Полезные ссылки про данные, технологии и не только:
- FOR-species20K dataset [1] датасет результатов лазерного сканирования более 20 тысяч деревьев и идентификация их видов на основе этих данных
- DuckDB Tricks – Part 1 [2] полезные трюки по работе с данными с помощью DuckDB.
- ncWMS Guide [3] руководство по серверу WMS ncWMS, активно используется вместе с серверами Thredds в метеорологии. Начал их активно добавлять в реестр каталогов данных, скоро проиндексируются в Dateno
- Mapbender 4.0 [4] вышла 4-я версия Mapbender, популярного open source геопортала используемого в ЕС во многих странах.
- SuperMap [5] популярный в Китае геосервер, альтернатива ArcGIS. Используется во многих китайских госорганах, компаниях и активно распространяется в южной, восточной и юго-восточной азии. Имеет частичную совместимость с ArcGIS
- Mealie [6] сервер для ведения рецептов, открытый код и импорт из разных источников. Локализован на многие языки включая русский.
- Slackdump [7] архиватор публичных и личных сообщений из Slack'а. Не требует админских привилегий, открытый код.

Ссылки:
[1] https://zenodo.org/records/13255198
[2] https://duckdb.org/2024/08/19/duckdb-tricks-part-1
[3] https://reading-escience-centre.gitbooks.io/ncwms-user-guide/content/
[4] https://mapbender.org/aktuelles/details/mapbender-version-400-released/
[5] https://www.supermap.com/en-us/
[6] https://github.com/mealie-recipes/mealie
[7] https://github.com/rusq/slackdump

#opensource #data #datatools #geodata #geoportals #tools #datasets
В рубрике как это устроено у них раскрытие данных в штате Нью Джерси, США. Раскрытие данных в штате осуществляется в рамках
NJ Geographic Information Network [1] проекте основанном NJOGIS (New Jersey Office of GIS).

В рамках этого проекта публикуются геоданные штата, начиная с информации о дорогах, кадастровых участках и иных данных большая часть которых доступна через портал в облаке ArcGIS [3], а также на сайте проекта публикуются изображения аэрофотосъёмки c 1920 по 2020 годы [4] доступные, как в виде сервисов по стандарту WMS, так и данных для массовой выгрузки.

Что может показаться необычным, но, на самом деле, уже становится стандартным способом раскрытия многих данных, так это то что все крупные датасеты предоставляются не только для выгрузки по прямым ссылкам, но и изнутри инфраструктуры Amazon AWS с помощью их утилиты для командной строки.

Общий объём данных измеряется десятка терабайт, начиная от простых CSV таблиц, до большого числа GeoTIFF файлов оптимизированных для облаков.

Ссылки:
[1] https://njgin.nj.gov
[2] https://njgin.nj.gov/njgin/about/ogis/
[3] https://njogis-newjersey.opendata.arcgis.com/
[4] https://njgin.nj.gov/njgin/edata/imagery/index.html

#opendata #usa #datasets #geodata #datacatalogs
В продолжение размышлений о поиске геоданных и связанных с этим сложностей. Я ранее писал про GeoSeer, единственный известный мне поисковик геоданных в мире, но и он сравнительно небольшой. А вот в качестве альтернатив ему выступают уже не поисковики, а каталоги георесурсов. В первую очередь поисковики в экосистеме ArcGIS по их каталогам открытых данных и георесурсов и некоторое, небольшое число альтернатив.

Например, Spatineo Directory [1] от финских геоконсалтеров Spatineo. Там более 87 тысяч георесурсов, в виде точек API по стандартам WFS, WMS, WMTS, но без сбора информации о слоях, поэтому это не поисковик, а именно каталог. Его существенный минус в то что более менее там систематизированы только точки API из развитых стран.

Другой, неожиданно, государственный проект это FGDS Status Checker [2] гигантский каталог геовебсервисов созданный как сервис проверки их доступности. Список вебсервисов там огромный, но почти полностью ориентированный на США и почти не охватывающий морские территории. Есть подозрение что Spatineo делали свой каталог с оглядкой именно на этот продукт, поскольку функции схожи.

Но ещё больше каталогов которые прекратили своё существование. К примеру WFS Geodata Catalog от германского GeoClub. Сейчас можно найти только скриншот.

Ещё был Pyxis crawler с каталогом из 29+ тысяч датасетов, вот он ближе к GeoSeer, но индексировал всего 1572 источника и его тоже больше нет. Тоже остался тоже скриншот.

И был ещё такой поисковик Geometa, но теперь даже его скриншот найти оказалось непросто.

Фактических попыток систематизировать и сделать доступными геоданные и геосервисы было много. Можно сказать что у Dateno тоже есть подзадача в части геоданных.

В каталоге Dateno сейчас 4.4 миллиона наборов геоданных извлеченных из 3127 геопорталов. При этом в реестре Dateno всего 5955 геопорталов и после индексации оставшихся объём геоданных существенно вырастет, кроме того много геоданных в других типах дата каталогов: порталах открытых данных, научных репозиториях и тд., это тоже добавит число геоданных.

Но пока приходится держать в голове что в части геоданных относительно сравнимой референсной базой является GeoSeer.

Ссылки:
[1] https://directory.spatineo.com
[2] https://statuschecker.fgdc.gov

#opendata #geodata #datasets #datacatalogs #dateno
Почему я в последнее время много думаю и пишу про геоданные?
Есть 4 основных типов общедоступных данных данных которые собираются в Dateno:
- открытые данные (opendata). С ними всё довольно понятно, их много, не не бесконечно много. Большая часть порталов известны, далее просто длительная методическая работа по их систематизации и сбору датасетов
- научные данные. Тут не всё так понятно, и этих данных по объёму более всего в мире, но в каждой науке свои виды каталогов данных, стандарты и тд. За пределами отдельных научных дисциплин у этих данных не так много пользы
- статистика и индикаторы. Нужны всем, чаще стандартизированы, поддаются систематизированному сбору и "расщепляются" на множество поддатасетов в привязке к конкретным странам и территориям. Много усилий требуется по агрегации национальных каталогов статистики.
- геоданные. Их много, чаще стандартизированы, но поиск и каталогизация явно недостаточны. Предыдущие попытки чаше безуспешны.

Остальные типы данных - это данные для машинного обучения, данные из коммерческих маркетплейсов или датасеты из порталов микроданных (социология), все они сильно меньше количественно.

Существенный количественный рост данных в Dateno будет от трёх категорий: научные данные, данные индикаторов и геоданные.

При этом научные данные можно _очень быстро_ загрузить из 3-4 крупных источников и это добавит +20 млн датасетов и создаст огромные пузыри данных по нескольким языкам, категориям и темам.

Данные индикаторов стремительно превратят Dateno в портал по макроэкономике/макростатистике. Их также можно загрузить +5 млн датасетов в короткое время.

А в агрегированных геоданных сейчас есть объективный "пузырь", огромное число датасетов по Германии отчего в любом поисковике по данным доля геоданных их Германии достигает 40-60% от общего числа. Если не больше.

Конечно, в какой-то момент, можно перестать думать про этот баланс и залить в Dateno несколько десятков миллионов датасетов и уже потом заниматься вопросами качества индекса. Так, например, сделали в агрегаторах научных данных типа SciDb и OpenAIRE. Там очень много мусора который создаёт количество датасетов, но который и почти не найдёшь потому что эти мусорные данные даже не подпадают под фасеты. В общем-то там ставка однозначно сделана на количество датасетов, а в этом смысле нет проблемы достигнуть того же.

#opendata #data #dateno #thoughts #geodata
В рубрике закрытых данных в РФ у геопортала Архангельской области на базе ArcGIS закончилась лицензия [1] и слои данных и сервисы с этого сервера более недоступны. Хотя они всё ещё перечислены в их каталоге геоданных [2]. Похоже что геопортал уже, или перевели, или переводят на российскую ГИС Orbis, у которой открытых слоёв с данными нет и в каталоге они не перечислены, но есть недокументированные API. Не совместимые с ArcGIS или с протоколами OGC.

А каталог геоданных в Архангельской области не обновляли уже 3 года.

Ссылки:
[1] http://maps1.dvinaland.ru/arcgis/rest/services/AdressnPlan/Kadastr/FeatureServer/0
[2] https://maps29.ru/catalog/#
[2] https://maps29.ru

#opendata #closeddata #datasets #russia #geodata
Полезные ссылки про технологии, данные и не только:
- Top Programming Languages 2024 [1] от IEEE Spectrum, для интриги не назову языки лидеры. Но всё очевидно:)
- GCSE results 2024: The main trends in grades and entries [2] лонгрид про данные результатов британского экзамена GCSE от Education Datalab.
- New Washington Post AI tool sifts massive data sets [3] в Axios о том что у Washington Post новый ИИ инструмент для просеивания данных, через него уже прогнали базу видеороликов кандидатов в президенты [4].
- Using Perplexity to prepare to job interview [5] автор описывает инструкции и шаблон промпт по подготовке к интервью компании на основании описания вакансии. Эта идея имеет больше глубины чем кажется на первый взгляд. Применимо не только к подготовке к интервью, но и в принятии решения откликаться ли на вакансию.
- Benchmarking energy usage and performance of Polars and pandas [6] сравнение энергопотребления при использовании Polars и Pandas. Интересен сам факт сравнения, но объекты сравнения подобраны плохо. Сравнивать надо с теми же движками что применялись в 1 billion rows challenge, а не вот так. Pandas уже какое-то время рассматривается как референсный продукт, хуже которого быть нельзя в части скорости работы с данными.
- No, 80% of data isn’t spatial (and why that is a good thing) [7] автор опровергает, вернее, пытается опровергнуть тот факт что 80% датасетов это геоданные. Нууу, вот тут то можно и поспорить. Количественно точно не 80%. А вот качественно, вернее объёмно по хранению... До того как объёмы геномных данных не начали накапливаться десятками петабайтов, а это где-то лет 5 назад началось, геоданные, с учётом данных наук о Земле, могли по объёму быть и более 80%. Сейчас я думаю что геномные данные составляют не менее 50%: данных.

Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2024
[2] https://ffteducationdatalab.org.uk/2024/08/gcse-results-2024-the-main-trends-in-grades-and-entries/
[3] https://www.axios.com/2024/08/20/washington-post-ai-tool-data
[4] https://www.washingtonpost.com/elections/interactive/2024/republican-campaign-ads-immigration-border-security/
[5] https://www.linkedin.com/posts/patleomi_i-just-unlocked-a-really-cool-new-use-case-activity-7232456130281549825-onDm
[6] https://pola.rs/posts/benchmark-energy-performance/
[7] https://www.spatialstack.ai/blog/no-80-of-data-isn-t-spatial-and-why-that-is-a-good-thing

#data #ai #geodata #readings
В рубрике интересных продуктов для публикации данных малоизвестный pycsw [1] движок с открытым кодом для публикации метаданных для геоданных. Поддерживает стандарты STAC API, CSW, OpenAPI, OGC Collections, OpenSearch, OAI-PMH и даже SRU, который, скорее, для библиотечных систем.

Имеет немного внедрений, около 50 по всему миру [2] во всяком случае тех что известны самим разработчикам.

Сильно менялся от версии к версии. До версии 3.0 был просто движком для публикации CSW каталогов, а с версии 3.0 чем-то стал конкурировать с геосервером или дополнять, тут уж как посмотреть.

С точки зрения архитектуры штука не то чтобы сильно современная, но открытый код, но расширяется плагинами и, в целом, функции индексации геоданных может выполнять неплохо если прикрутить к нему интерфейс, API для управления и тд.

Ссылки:
[1] https://pycsw.org
[2] https://raw.githubusercontent.com/geopython/pycsw.org/gh-pages/live-deployments.geojson

#opendata #geodata #datacatalogs #opensource
В рубрике интересных малоизвестных проектов по публикации данных WMO Information System (WIS) 2.0 [1] проект Всемирной метеорологической организации по стандартизированному и систематизированному сбору данных о местной погоде от национальных метеорологических агентств. WIS 2.0 представляет собой набор стандартов по предоставлению данных и для упрощения работы по стандартам WMO предоставляет открытое и бесплатное ПО WIS 2 in a box [2] в которое поступает данные со станций метеонаблюдения и данные предоставляются в виде OGC API (стандарт геоданных) через встроенный внутрь движок pygeoapi [3].

Все публикуемые в WIS 2.0 in a box стандартизированы, там всего несколько коллекций: метаданные, станции, уведомления о данных и ежечасные синоптические наблюдения.

Большая часть инсталляций WIS 2.0 in a box общедоступны, но и не очевидно может быть где найти, но и это не так сложно, если захотеть.

Вот примеры серверов с WIS 2 in a box:
- США https://wis2node.nws.noaa.gov
- Белиз https://wis.nms.gov.bz
- Казахстан https://wis2box.kazhydromet.kz
- Россия http://wis2box.mecom.ru
- Китай https://wis2node.wis.cma.cn/

И так далее, таких инсталляций довольно много, что делает pygeoapi одним из довольно популярных движков для публикации геоданных.

P.S. Мне так и не удалось найти инсталляции WIS 2.0 in a box в Армении, возможно его там и нет, а данные передаются каким-то другим образом. Как я помню, синоптические данные в странах СНГ собирались через Росгидромет.

Ссылки:
[1] https://community.wmo.int/en/activity-areas/wis
[2] https://docs.wis2box.wis.wmo.int/en/1.0b7/index.html
[3] https://pygeoapi.io/

#opendata #datacatalogs #geodata #datasets #synoptic #weather
Вдогонку к тексту про недокументированные API, маленький лайфхак о котором мало кто знает. У сервисов ArcGIS проверка доступа к ним зависит от вида запрашиваемого контента, для одних и тех же данных. Если обратится по ссылке к HTML представлению то может быть ошибка 403, а если к JSON то всё возвращается.

На скриншотах сервер с данными ArcGIS в Индии. Его можно открыть по ссылке. Он выдаст 403 ошибку, потом добавляем ?f=json и получаем ответ в формате JSON. Что важно, даже несмотря на то что администратор ограничил просмотр директорий с сервисами.

Это уже чуть-чуть ближе к инфобезу, но серьёзные данные и так не выставляют в ArcGIS в открытый доступ, а краулеры вообще не знают что там администратор ограничил. JSON доступен и парсится? Вот и славно.

#opendata #undocumentedapi #datasets #arcgis #geodata