Ivan Begtin
8.07K subscribers
1.48K photos
3 videos
99 files
4.23K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике интересных наборов данных CloudDrift, a platform for accelerating research with Lagrangian climate data [1] - это программная библиотека для доступа к данным собираемым с 25 тысяч дрейфующих буев в рамках программы Global Drifter Program (GDP) [2] реализуемой Национальным управлением океанических и атмосферных исследований США. Сами данные размещены на серверах Amazon и доступны в их сервисе S3 [3].

Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.

Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]

Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects

#opendata #opensource #science #usa #earthsciences #geodata
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6