Ivan Begtin
8.08K subscribers
1.45K photos
3 videos
98 files
4.19K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике как это устроено у них статистическая служба Мексики в лице INEGI, Национального института статистики и географии, публикует топографические данные статнаблюдений в векторном виде, Shape файлах [1], а также предоставляет API для доступа к большей части статистических публикаций и индикаторов [2]. Ещё одна важная их особенность в том что по каждому наблюдению все продукты которые на его основе создаются собраны вместе на вкладках исследования можно наблюдать:
- методологию/документацию
- таблицы в Excel
- открытые данные
- микроданные (если есть)
- статсборники если есть

Все их можно скачать разом, в режиме массовой выгрузки через систему DENUE [3] сводящую метаданные из всех баз данных поддерживаемых INEGI

Ссылки:
[1] https://www.inegi.org.mx/programas/topografia/50000/#descargas
[2] https://www.inegi.org.mx/servicios/api_indicadores.html
[3] https://www.inegi.org.mx/app/descarga/

#opendata #statistics #mexico #datasets #data
В рубрике как это работает у них ILOSTAT Bulk download facility [1] сервис массовой выгрузки данных статистического подразделения Международной организации труда (ILO).

Международная организация труда ведёт несколько баз статистики труда по всему миру и предоставляет их конечным пользователям в виде портала индикаторов [2], кроме того они предоставляют сервис Bulk download facility в котором предоставляют возможности по автоматической выгрузке всей их базы данных.

Кроме того ILO предоставляют библиотеку Rilostat на языке R [3] для автоматизированного доступа к этим данным.

Итого, в дополнение к базе и интерфейсу к индикаторам ILO предоставляют:
1) Возможность выгрузки всех данных массово
2) Доступ к сервису и данным через готовое API с открытым кодом (в виде библиотеки для R, в данном случае)

Ссылки:
[1] https://ilostat.ilo.org/data/bulk/
[2] https://ilostat.ilo.org/data/
[3] https://ilostat.github.io/Rilostat/

#opendata #opensource #statistics #ilo #data
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia
Очередные обновления в Dateno:
- загружены более 4.9 миллионов карточек датасетов, удалены часть недоступных, почищены часть дубликатов. Итого в поисковом индексе сейчас 14.85 миллионов наборов данных
- из добавленного: индикаторы Всемирного банка, индикаторы множества национальных статслужб таких как Финляндия, Латвия, Эстония, Филлипины, Швеция и многих других
- Улучшилась фильтрация по форматам файлов, все форматы теперь приводятся к стандатизированным значениям
- Появился фильтр по типу данных таким как: геоданные, семантические данные, архивы, изображения, итд. включая просто data (привычные дата файлы) . Построен поверх фильтра по форматам файлов.
- Из небольшого и необычного, проиндексированы датасеты инсталляций ПО Aleph, используемых журналистами расследователями и частично открытые через интерфейс и API. Таких датасетов чуть более 300, но они бывают весьма большими.

Список изменений можно почитать тут, а новость на английском чуть позже на наших ресурсах в соц сетях.

Всё, по прежнему, работает в режиме максимально быстрого поиска, что дорого обходится по аппаратным ресурсам, зато даёт незабываемые ощущения когда надо что-то быстро найти.

Сейчас система достигла временного пика по размеру поискового индекса и ближайшие шаги мы будем предпринимать в сторону повышения качества индекса, улучшения и развития UI и постепенной архивации хотя бы части данных. Новые источники будут подключаться понемногу, и в основном небольшие.

Не могу не напомнить что Dateno создаётся в Армении, небольшой распределённой командой и цель проекта в том чтобы дать современный удобный быстрый и насколько только возможно большой поисковик и поисковый индекс по всем общедоступным наборам данных.

#opendata #datasets #datacatalogs #datasearch #dateno
В рубрике как это устроено у них каталоги связанных данных в мире. Их немного, но они есть.

ASCDC LOD Datasets Platform [1
Платформа публикации связанных данных от тайваньской Academia Sinica Center for Digital Cultures

13 наборов данных и 633,847 записей

Universal Dependencies [2
Проект по аннотированию грамматики различных языков с наборами данных под эти языки. Более 250 наборов данных.

Ссылки:
[1] https://data.ascdc.tw
[2] https://universaldependencies.org

#opendata #linkeddata #datacatalogs
Размышляя над задачами поиска данных (data discovery) и их доступностью вспоминаю про ключевой принцип отличия открытых данных от общедоступной информации. Статус данных как открытых предполагает осознанность владельцем данных того что он делает. Чтобы опубликовать датасет, ему/ей надо подумать о метаданных, надо выбрать лицензию, надо подготовить данные в машиночитаемом виде и, желательно, убедится что данные разумного качества. Это всё хорошо работает когда такая осознанность у владельца данных есть и работает так себе когда её недостаточно.

Но дело в том что кроме данных публикуемых осознанно есть много чего что публикуется AS IS без размышлений о правах, статусе и машиночитаемости. Иногда это недокументированные API, иногда веб страницы пригодные к скрейпингу, иногда что-то ещё. В любом случае это данные которые по всем формальным критериям, в первую очередь, юридическим относить к открытым данным нельзя.

Когда мы говорим про поиск данных, то пользователи редко ищут именно открытые данные, их, как правило, интересуют данные насколько возможно хорошего качества, желательно с максимальной свободой использования и желательно с минимальным техническим порогом для их использования. Желательно машиночитаемых, но часто если даже нет, то можно и скрейпить их из HTML или из документов .

Я довольно давно размышляю о том как можно охватить больше данных за пределами каталогов данных и идей и мыслей довольно много, но за каждым шагом есть свои ограничения и оценка востребованности.
1. Сейчас Dateno индексирует данные работая с ограниченным числом источников каталогизируемых полу-вручную. Если отказаться от этого принципа и подключить индексирование всего что есть через краулинг schema.org Dataset, то число наборов данных можно нарастить на 10-15 миллионов датасетов, одновременно снизится качество метаданных, появится SEO спам и просто мусор. Одна из претензий к Google Dataset Search именно по наличию такого мусора в индексе и сильная заспамленность.
2. Кроме датасетов по schema.org есть огромное число машиночитаемых ресурсов и API доступных через краулинг сайтов. Самые очевидные RSS/ATOM фиды которые к API можно отнести. Менее очевидные, к примеру, эндпоинты ArcGIS серверов которые и так уже активно в Dateno добавлялись , но не как датасеты, а как каталоги таблиц и с ручной проверкой. Тем не менее открытых API немало, но их поиск и доступность ближе к задачам OSINT и инфобеза, а не только data discovery.
3. Многие немашиночитаемые сведения можно делать машиночитаемыми автоматически. Извлекать таблицы из разных языков разметки, преобразовывать документы в таблицы или извлекать таблицы из контента там где они есть. Например, из НПА, из научных статей, из корпоративной отчетности и ещё много чего. Но это тоже много маленьких данных, интересных некоторым исследователям, журналистам, но не так вероятно что интересные data scientist'ам.
4. Тем не менее если оценивать качество поиска по числу наборов данных как основному критерию, то обогнать Google Dataset Search и другие поисковики по данным - это не то реальная, это не такая уж сложная задача. Вызовы в ней скорее в моделировании, как создавать фасеты на разнородных данных, не всегда имеющих геопривязку, например
5. Сложнее задача в создании нового качества доступа к общедоступным данным. Как сделать проиндексированные датасеты удобными? Как облегчить работу аналитиков и иных пользователей? И вот тут концептуальный момент в том где происходит переход от поисковика по метаданным к системе управления данными. К примеру, для статистических индикаторов невелика разница между тем чтобы индексировать их описание (метаданные) и сами значения. По ресурсоёмкости почти одно и то же, а имея копии сотен статистических порталов данных, остаёмся ли мы поисковиком или становимся агрегатором и можно превращаться во что-то вроде Statista ? Неочевидно пока что

#opendata #datasearch #datasets #dateno #thoughts
В рубрике интересных каталогов данных портал India Urban Data Exchange [1] содержащий 189 наборов данных из 47 индийских городов. Большая часть датасетов - это API с данными реального времени, например, отслеживания передвижения автомобилей скорой помощи, автобусов и многое другое.

Ни один датасет из этого каталога не является открытым и даже не совсем правильно называть их датасетами, поскольку основной режим доступа к данным через API. Само API реализовано на базе стандарта NGSI-LD API.

По сути этот каталог скорее аналог продуктов по созданию порталов для разработчиков вокруг корпоративных API. Ключевые отличия в доступности данных в реальном времени, растущее число поставщиков данных и многое другое.

Ссылки:
[1] https://catalogue.cos.iudx.org.in

#opendata #india #datacatalogs #data
Я уже писал об этом, но можно и напомнить о том как готовят сейчас наборы данных. У Open Knowledge Foundation есть в работе инструмент Open Data Editor [1]. Последний его релиз был в октябре 2023 года и сейчас его активно разрабатывают. Из полезных его возможностей - это ручное аннотирование файлов, заполнение метаданных и простые операции по очистке данных и прямая публикация данных в дата серверах вроде CKAN и сервисах вроде Github и Zenodo.

Для всех кто использует CKAN как основной продукт для публикации данных инструмент весьма полезный.

С открытым кодом под лицензией MIT.

Ссылки:
[1] https://opendataeditor.okfn.org

#opendata #opensource
К вопросу о том что порталы открытых данных довольно далеки от data инженерии. Есть и исключения, например, практически неизвестный широкой публике продукт Opendatasoft на котором работает, например, портал открытых данных Катара [1] и ещё чуть менее 400 порталов открытых данных в мире. И вот они добавили поддержку экспорта данных в формате Parquet к другим способам экспорта: CSV, Excel, JSON и REST API. Со многими датасетами которые приходится скачивать с порталов на их технологии стало проще работать.

Важная оговорка только в том что хотя инсталляций в Opendatasoft немало , но данных не так много. Реально их в районе 33-35 тысяч датасетов поскольку их софт требует только структурированных данных и превратить его в помойку из Excel файлов не получится. Что делает данные оттуда качеством повыше чем в среднем на порталах открытых данных, но значительно меньшими по числу записей.

Кстати по этой причине этот продукт хорошо годится для публикации официальной статистики и его в этой цели часто используют. Но для реализации принципа open by default он годится плохо потому что не все данные структурированы хорошо и ещё есть много legacy.

Пока же скажу что все каталоги Opendatasoft индексируются в Dateno и похоже что скоро надо будет обновлять индекс для возможности скачивать Parquet файлы.

Ссылки:
[1] https://www.data.gov.qa

#opendata #datacatalogs #datasets #qatar #dateno
Сколько в мире общедоступных данных? Количественно? Качественно? Объемно?

Я лично не могу сказать про всё-всё-всё, но могу оценить по тому с чем работаю. В Dateno сейчас проиндексировано чуть менее 15 миллионов наборов данных, к которым прилинковано около 34 миллионов ресурсов в виде файлов и точек подключения к API. Из них не менее 1.7 миллионов файлов - это CSV файлы. В реальности их больше, потому что не по всем ссылкам на ресурсы можно понять формат и поскольку часть CSV файлов находится внутри ZIP, GZ, XZ и других архивах, но для оценки снизу можно исходить из этой цифры.

Часть этих данных сейчас скачиваются, в целях архивации, в целях поддержки внутри Dateno новых фильтров и для разного рода экспериментов по автоматизированному анализу и обработке данных.

Вот ещё цифры:
- 41 тысяча CSV файлов из 45 каталогов данных составляют в 192 GB
- в среднем получается 4.6 мегабайта на один CSV файл
- топ 100 CSV файлов из этого списка в несжатом виде - это 51 GB

Если сделать копию только всех CSV файлов ссылки на которые есть в Dateno то это будет порядка 4.6M*1.7M = 7.8TB

Много, но не так уж много. И это, конечно, пока это только CSV файлы. И это без охвата специализированных научных каталогов по физике частиц, биоинформатике и ещё ряду особо крупных хранилищ данных.

Лично я всегда смотрю на общий объем хранимых данных в публичных каталогах данных потому что число датасетов легко симулировать и так регулярно делают, а вот объем подделать куда сложнее. И существуют национальные каталоги данных на пару десятков мегабайт и тысячи датасетов, а бывают наоборот порталы данных, чаще всего для ИИ, с несколькими наборами данных в десятки гигабайт.

Много данных не всегда означает их высокое качество, но малые объёмы данных почти всегда являются отрицательной характеристикой их раскрытия.

#opendata #data #datasets #dateno
В рубрике особенно больших открытых данных для тех кто хочет поработать с данными большого размера Umbra Open Data [1] открытый каталог данных спутниковых снимков со спутников Umbra работающих по технологии Synthetic Aperture Radar (SAR) с разрешением до 16 сантиметров и способные делать изображения ночью, сквозь облака и отслеживать изменения.

В открытом каталоге опубликовано более 17 терабайт изображений в форматах NITF, GeoTIFF и CPHD. Доступ к данным через API Amazon AWS, напрямую скачивая из S3 корзины или через STAC Browser.

Всего в каталоге Amazon 20 крупных наборов спутниковых данных, все доступны под спецификацией STAC, а общий объём составляет сотни терабайт.

Ссылки:
[1] https://registry.opendata.aws/umbra-open-data/
[2] https://registry.opendata.aws/

#opendata #datasets #satellites #data #geodata
- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.

Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.

Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.

#opendata #data #datascience #ml #machinelearning
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china
В рубрике больших интересных наборов данных Global Contract-level Public Procurement Dataset [1] единая база из 72 миллионов госконтрактов по 42 странам собранная в Central European University. Охватывают 2006-2021 годы, обещают обновления тут [2], но пока их не выкладывали. Что характерно, это не база Open Contracting, данные собирались из разных источников и в разных форматах.

Много это или мало? В российском проекте Госзатраты собрано более 58 миллионов госконтрактов [3]. По стандарту Open Contracting в мире публикуют около 55 стран, точное число контрактов сказать не могу, но точно миллионы-десятки миллионов.

В США на портале USASpending [4] опубликовано тоже порядка 58 миллиона федеральных контрактов, а если считать все процедуры предоставления госсредств (гранты, субсидии, прямые платежи), то около 150 миллионов.

Так что 72 миллиона в датасете - это, да, много. Тем кто исследует данные такого типа может быть интересно.

Ссылки:
[1] https://www.sciencedirect.com/science/article/pii/S2352340924003810
[2] https://www.govtransparency.eu/category/databases/
[3] https://clearspending.ru/
[4] https://usaspending.gov

#opendata #datasets #procurement #data #contracts
Стоило мне чуток отвлечься на активный отдых на майские праздники так тут столько всего интересного не-произошло. В РФ правительство не-сменилось и в мире много чего ещё не-приключилось. А я уже очень скоро вернусь к регулярным текстам про каталоги данных, природу данных, инструменты, регулирование и не только.

В ближайшее время буду рассказывать про проекты с данными которые нельзя отнести к порталам данных, но де-факто которые такими являются. И что данных количественно там может быть многократно больше чем на других ресурсах.

#opendata #data #blogging
Пример порталов с данными которые не порталы данных.

Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.

Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.

Ссылки:
[1] https://www.wikiloc.com

#opendata #datasets #data #dataportals #hiking #geodata
Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики.
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.

2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые грёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили.

3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.

Иначе говоря, ничего неожиданного.

#opendata #government #data #russia #govtech
Помимо данных о маршрутах, о которых я ранее писал [1], есть немало узкоспециализированных источников структурированных данных, не очень то полезных для дата аналитиков и data scientist'ов, но полезных кому то ещё. Например, это данные о 3D моделях, майндмапы и какое-то число других результатов активностей распространяемых в форматах с машиночитаемым экспортом.

Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки.

К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе.

Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему.

Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить.

И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные".

Ссылки:
[1] https://t.me/begtin/5616
[2] https://developer.ibm.com/data/fintabnet/

#opendata #data #thoughts #datasets #dateno
В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными.

Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].

В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.

Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml

#opendata #datacatalogs #astronomy #astrophysics #data
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6