Ivan Begtin
8.06K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике интересных наборов данных CloudDrift, a platform for accelerating research with Lagrangian climate data [1] - это программная библиотека для доступа к данным собираемым с 25 тысяч дрейфующих буев в рамках программы Global Drifter Program (GDP) [2] реализуемой Национальным управлением океанических и атмосферных исследований США. Сами данные размещены на серверах Amazon и доступны в их сервисе S3 [3].

Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.

Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]

Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects

#opendata #opensource #science #usa #earthsciences #geodata
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6
В рубрике интересных каталогов данных портал DataOne [1] с данными о о земле, климате и связанными науками, агрегирующий данные из 63 научных репозиториев по этой теме и созданных на его же технологии, доступных как hosted repositories. Большая часть этих порталов созданы университетами и органами власти в США, всего в них более 956 тысяч наборов данных и уникальная возможность поиска датасетов по их геопривязке.

Одна из особенностей платформы в крайне детализированных метаданных по каждому набору, включая структуры таблиц, информацию о геопривязке, темах, и многом другом.

Поддерживается Университетом Калифорнии, не имеет открытого кода, но довольно большое сообщество и открытое API.

Ссылки:
[1] https://www.dataone.org

#opendata #datasets #data #earthsciences