Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Немногие за пределами Китая знают о масштабах публикации там научных данных. При этом данных там много и, помимо таких проектов как SciDB и Findata существуют десятки крупных научных репозиториев с данными.

В большинстве из них в их основе лежит ПО InstDB [1] установленное в 72 научных учреждениях и служащее для раскрытия научных данных в режимах: открытости, доступа по авторизации и доступа по запросу.

Например, на InstDB работает центр научных данных академии наук Китая [2], репозиторий Института физики [3] и многих других научных организаций.

В Китае научных данных многократно больше чем на государственных порталах данных, которые тоже есть и которые, тоже, работают на типовом ПО. Но типовом местном ПО, разработанном китайскими компаниями. Это большая и важная страновая особенность по доступности данных. Ещё одна особенность в том что про китайские открытые данные почти не пишут в обзорах OKF или State of data. Это делает эти данные почти невидимыми для тех кто не знает о том как всё устроено.

А типовое ПО в виде InstDB позволило китайской академии наук создать поисковик Findata о котором я ранее писал.

Ссылки:
[1] https://market.csdb.cn/InstDB
[2] http://instdb.casdc.cn
[3] http://instdb.iphy.ac.cn

#opendata #china #datacatalogs #datasets
Подборка ссылок и моих наблюдений про то как публикуют данные в мире:

1. Китайский национальный центр по биоинформатике собирает базы общим размером более 51 петабайта [1] большая часть которых доступна для скачивания онлайн через их FTP сервер, посмотреть можно через веб интерфейс их FTP сервера [2]

2. THREDDS Data Server [3] софт с открытым кодом для публикации научных данных. Изначально создан для работы с метеорологическими данными и, в основном, так и применяется. Несколько десятков инсталляций по всему миру, хотя сам продукт очень консервативный и заточенный под конкретную область. Можно посмотреть пример такого каталога [4]

3. Github - это крупнейший каталог данных, но плохо структурированный. Опубликовать данные там просто, найти данные там сложно потому что будучи репозиторием кода датасеты там не структурированы в отдельную категорию. Можно искать их через правильные поисковые запросы, например, находя спецификации Frictionless Data которые в файлах datapackage.json [5]

4. Datamed [6] поисковик по биомедицинским датасетам, пишут что их там миллионы, по факту 1.2 миллиона из 49 репозиториев. Из них 80% датасетов из всего 4-х репозиториев имеющих более продвинутые формы поиска. Идея хорошая, реализация, на мой взгляд, не очень, недостаточно нового качества создаётся. Ну и индексируют они похоже отдельными парсерами под каждый источник и у них всё та же запутанность о том что считать датасетами.

5. Уже несколько раз сталкиваюсь с тем что, казалось бы, у типового ПО для публикации данных нет API. Нечасто но такое бывает и выясняется что это не нет API, а подход возврата разного содержания от передачи заголовка Accept: application/json в HTTP запросе. То есть, де-факто, API есть, но GET запрос не вернет JSON или другой машиночитаемый ответ. Любопытно насколько это распространено в публикации чего-то ещё, есть подозрение что это не такое редкое явление и не только про каталоги данных.

Ссылки:
[1] https://www.cncb.ac.cn/
[2] https://download.cncb.ac.cn/
[3] https://github.com/Unidata/tds
[4] https://thredds.rda.ucar.edu/thredds/catalog/catalog.html
[5] https://github.com/search?q=path%3A**%2Fdatapackage.json&type=code&ref=advsearch
[6] https://datamed.org/

#opendata #data #datasets #datatools #datacatalogs #datasearch
Для тех кто интересуется поиском по данным и каталогами данных, реестр каталогов переехал на сайт Dateno и теперь доступен по адресу dateno.io/registry и содержит ещё и статистику из самого портала Dateno, по странам и по каждому каталогу в числе датасетов.

Собственно Dateno - это крупнейший открытый индекс и поисковик по данным и раскрытие по масштабу индексирования - это про то как он работает.

Пока в качестве преданонса, в поисковик загружаются ещё миллионы датасетов и это то что будет в следующем его обновлении. А вскоре будет и обещанное API, в первую очередь для beta тестирования и по запросу, а когда сделаем личный кабинет на сайте то и доступное для всех.

#dateno #datacatalogs #datasearch #data #opendata
В рубрике больших каталогов открытых данных данные проекта ENCODE [1] энциклопедии элементов ДНК. Всего в проекте более 643 тысяч наборов данных в специализированных форматах bigWig, bed bed 3+, fastq, bam и других, общим количеством в несколько петабайт.

Эти же данные доступны исследователям через сервисы Amazon AWS и Azure Datasets.

Это очень специализированные данные которые ищут по своей логике и правилам. Например, мы без труда сможем добавить их в поисковый индекс Dateno , что сразу увеличит число датасетов привязанных к США, имеющих научную атрибуцию поскольку почти все эти данные созданы в США и более 80% в одной лаборатории.


Ссылки:
[1] https://www.encodeproject.org/datasets/

#opendata #datacatalogs #datasets #data
В рубрике как это работает у них портал открытых данных Фолклендских островов [1] включает 560 наборов данных большая часть которых посвящена территории, океану, окружающей среде, животному миру островов и окружающей территории.

Общее население островов 3662 человека (по итогам 2021 года).

Бюджет островов также весьма невелик.

Если посравнивать с тем сколько данных публикуется в других странах, то это очень даже немало.

Ссылки:
[1]http://dataportal.saeri.org/

#opendata #data #uk #falklands #datacatalogs #datasets
Очередные обновления в Dateno:
- загружены более 4.9 миллионов карточек датасетов, удалены часть недоступных, почищены часть дубликатов. Итого в поисковом индексе сейчас 14.85 миллионов наборов данных
- из добавленного: индикаторы Всемирного банка, индикаторы множества национальных статслужб таких как Финляндия, Латвия, Эстония, Филлипины, Швеция и многих других
- Улучшилась фильтрация по форматам файлов, все форматы теперь приводятся к стандатизированным значениям
- Появился фильтр по типу данных таким как: геоданные, семантические данные, архивы, изображения, итд. включая просто data (привычные дата файлы) . Построен поверх фильтра по форматам файлов.
- Из небольшого и необычного, проиндексированы датасеты инсталляций ПО Aleph, используемых журналистами расследователями и частично открытые через интерфейс и API. Таких датасетов чуть более 300, но они бывают весьма большими.

Список изменений можно почитать тут, а новость на английском чуть позже на наших ресурсах в соц сетях.

Всё, по прежнему, работает в режиме максимально быстрого поиска, что дорого обходится по аппаратным ресурсам, зато даёт незабываемые ощущения когда надо что-то быстро найти.

Сейчас система достигла временного пика по размеру поискового индекса и ближайшие шаги мы будем предпринимать в сторону повышения качества индекса, улучшения и развития UI и постепенной архивации хотя бы части данных. Новые источники будут подключаться понемногу, и в основном небольшие.

Не могу не напомнить что Dateno создаётся в Армении, небольшой распределённой командой и цель проекта в том чтобы дать современный удобный быстрый и насколько только возможно большой поисковик и поисковый индекс по всем общедоступным наборам данных.

#opendata #datasets #datacatalogs #datasearch #dateno
В рубрике как это устроено у них каталоги связанных данных в мире. Их немного, но они есть.

ASCDC LOD Datasets Platform [1
Платформа публикации связанных данных от тайваньской Academia Sinica Center for Digital Cultures

13 наборов данных и 633,847 записей

Universal Dependencies [2
Проект по аннотированию грамматики различных языков с наборами данных под эти языки. Более 250 наборов данных.

Ссылки:
[1] https://data.ascdc.tw
[2] https://universaldependencies.org

#opendata #linkeddata #datacatalogs
В рубрике интересных каталогов данных портал India Urban Data Exchange [1] содержащий 189 наборов данных из 47 индийских городов. Большая часть датасетов - это API с данными реального времени, например, отслеживания передвижения автомобилей скорой помощи, автобусов и многое другое.

Ни один датасет из этого каталога не является открытым и даже не совсем правильно называть их датасетами, поскольку основной режим доступа к данным через API. Само API реализовано на базе стандарта NGSI-LD API.

По сути этот каталог скорее аналог продуктов по созданию порталов для разработчиков вокруг корпоративных API. Ключевые отличия в доступности данных в реальном времени, растущее число поставщиков данных и многое другое.

Ссылки:
[1] https://catalogue.cos.iudx.org.in

#opendata #india #datacatalogs #data
К вопросу о том что порталы открытых данных довольно далеки от data инженерии. Есть и исключения, например, практически неизвестный широкой публике продукт Opendatasoft на котором работает, например, портал открытых данных Катара [1] и ещё чуть менее 400 порталов открытых данных в мире. И вот они добавили поддержку экспорта данных в формате Parquet к другим способам экспорта: CSV, Excel, JSON и REST API. Со многими датасетами которые приходится скачивать с порталов на их технологии стало проще работать.

Важная оговорка только в том что хотя инсталляций в Opendatasoft немало , но данных не так много. Реально их в районе 33-35 тысяч датасетов поскольку их софт требует только структурированных данных и превратить его в помойку из Excel файлов не получится. Что делает данные оттуда качеством повыше чем в среднем на порталах открытых данных, но значительно меньшими по числу записей.

Кстати по этой причине этот продукт хорошо годится для публикации официальной статистики и его в этой цели часто используют. Но для реализации принципа open by default он годится плохо потому что не все данные структурированы хорошо и ещё есть много legacy.

Пока же скажу что все каталоги Opendatasoft индексируются в Dateno и похоже что скоро надо будет обновлять индекс для возможности скачивать Parquet файлы.

Ссылки:
[1] https://www.data.gov.qa

#opendata #datacatalogs #datasets #qatar #dateno
В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными.

Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].

В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.

Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml

#opendata #datacatalogs #astronomy #astrophysics #data
В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.

Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US

#opendata #usa #datacatalogs #datasets
Кстати, продолжая о том что получается достигать в Dateno того чего нет в других агрегаторах и поисковиках данных покажу на примере Эстонии.

В Европейском портале данных (ЕПД) всего 324 датасета из Эстонии. В Dateno их 39310.

Откуда такая разница? ЕПД агрегирует только данные национального геопортала Эстонии, а Dateno использует 43 каталога данных внутри страны и 18581 индикатор из базы Всемирного банка и 1760 индикаторов из базы индикаторов Банка международных расчётов. И ещё не все внутренние источники проиндексированы, набрать 50-60 тысяч наборов данных вполне реально.

Причём большая часть датасетов будут статистическими индикаторами, научными данными и геоданными.

#opendata #datasets #estonia #dateno #datacatalogs
Свежий open source продукт для каталогизации корпоративных данных, в этот раз от Databricks и под названием Unity Catalog [1]. Обещают что это чуть ли не единственная open source платформа для data governance для data и AI.

Бегло посмотрев его могу сказать что:
- сделан каталог по cloud-first модели, полностью ориентирован на работу через облачных провайдеров
- в основе Delta sharing protocol, для обмена структурированными и неструктурированными данными
- UI сейчас нет, можно сказать этакий headless data catalog, может быть позже добавят
- он совсем не про инвентаризацию данных и про data assets, а скорее про приведение имеющегося к стандартным/популярным форматам
- внутри всё написано на Java

Итого:
1. Если надо сделать единый каталог для нескольких дата команд работающих с разными cloud сервисами и таблицами (Iceberg, Delta, Hudi) - годится
2. Если надо систематизировать работу data science команд с разными ML моделями и данными для обучения - скорее годится
3. Если надо проинвентаризировать корпоративные базы данных и разные данные, особенно унаследованные форматы - не подходит
4. Если надо организовать работу по документированию данных внутри - не подходит

И туда же до кучи, Snowflake тоже пообещали опубликовать код своего каталога данных Polaris [2]. Исходного кода пока нет, но тоже видно что это cloud-first решение на связке Iceberg и разных клауд провайдеров.

Ссылки:
[1] https://www.unitycatalog.io/
[2] https://github.com/snowflakedb/polaris-catalog

#opensource #datacatalogs #datatools