Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.26K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике особенно больших открытых данных для тех кто хочет поработать с данными большого размера Umbra Open Data [1] открытый каталог данных спутниковых снимков со спутников Umbra работающих по технологии Synthetic Aperture Radar (SAR) с разрешением до 16 сантиметров и способные делать изображения ночью, сквозь облака и отслеживать изменения.

В открытом каталоге опубликовано более 17 терабайт изображений в форматах NITF, GeoTIFF и CPHD. Доступ к данным через API Amazon AWS, напрямую скачивая из S3 корзины или через STAC Browser.

Всего в каталоге Amazon 20 крупных наборов спутниковых данных, все доступны под спецификацией STAC, а общий объём составляет сотни терабайт.

Ссылки:
[1] https://registry.opendata.aws/umbra-open-data/
[2] https://registry.opendata.aws/

#opendata #datasets #satellites #data #geodata
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china