Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].

Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.

Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]

и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.

Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action

#opendata #datasets #europe #statistics #healthcare
В рубрике как это устроено у них портал статистики Резервного банка Индии Database on Indian Economy [1] на котором публикуются сотни индикаторов и статистических данных страны и более тысячи таблиц в общей сложности.

Большая часть индикаторов годовые и квартальные, но есть и дневные и еженедельные показатели [2]. Портал отличается тем что совмещает визуализацию данных с возможностью получить в машиночитаемой форме через систему запросов к базе данных [3].

Из плюсов:
- много индикаторов
- есть оперативные показатели (до суток)
- централизованный поиск
- получение данных в CSV формате

Из минусов:
- нет документированного API (недокументированное есть)
- нет поддержки SDMX
- нет возможности массовой выгрузки (bulk download)

Если говорить объективно, то это очень консервативная штука сделанная на базе SAP BI и объективно неудобная, но на фоне многих других баз индикаторов в Индии она не так уже плоха.

Ссылки:
[1] https://data.rbi.org.in/#/dbie/home
[2] https://data.rbi.org.in/#/dbie/indicators
[3] https://data.rbi.org.in/#/dbie/dataquery_enhanced

#opendata #datasets #datacatalogs #statistics #india
К вопросу о том где и как искать данные и что такое каталоги данных, есть отдельная категория каталогов данных в виде репозиториев результатов научной деятельности в которых чего только нет, но обычно это статьи, диссертации, магистерские работы, книги и реже медиафайлы и курсы. Но там бывают и данные, чаще всего их доля не очень велика, если это не специализированный репозиторий именно для данных.

Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.

Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?

Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.

А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.

Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?

Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full

#opendata #openaccess #researchdata #datasets
Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.

Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.

Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.

Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.


Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data

#opendata #europe #transport #airtraffic #datasets
Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview
В рубрике как это устроено у них программа AirNow [1] по сбору информации и информированию граждан о качестве воздуха в Соединённых Штатах Америки. Ведётся федеральным агентством EPA и охватывает буквально все населённые пункты и графства, а также посольства в десятках стран по всему миру [2]. Если это не крупнейшая, то одна из крупнейших инициатив в мире по мониторингу качества воздуха по множеству критериев.

Для рядовых пользователей можно получить значения на сайте проекта, а для разработчиков и аналитиков доступны API [3] и данные [4]. Причём данные доступны для массовой выгрузки (можно скачать хоть всю базу целиком и сразу) с измерениями начиная с 1980 года.

Помимо данных посольств собираются ещё и данные от организацией партнеров по мониторингу, например, из Канады и Мексики. Поэтому, вместе с данными посольств, хотя и эта программа мониторинга действует внутри США, но частично охватывает и другие страны.

Ссылки:
[1] https://www.airnow.gov/
[2] https://www.airnow.gov/international/us-embassies-and-consulates/
[3] https://docs.airnowapi.org/
[4] https://www.epa.gov/outdoor-air-quality-data

#opendata #datasets #weather #airquality #usa
В рубрике интересных каталогов данных OpenAIP [1], открытая база и каталог данных по авиационной инфраструктуре.

Включает данные по воздушному пространству, аэропортам, препятствиям, контрольным пунктам и иным значимым сведениям почти по всем странам.

При этом детальность сильно варьируется, к примеру Европа описана максимально подробно, а Китай и Россия в основном в виде информации о аэропортах.

Но сама база велика, это:
- 46 тысяч аэропортов
- 23 тысячи записей о воздушном пространстве
- 335 тысяч препятствий
- 2 тысячи полей для авиамоделирования
- 3.7 тысячи навигационных маяков
и так далее, база хотя и не полна, но для открытого проекта весьма велика.

Данные из неё экспортируются в специальном разделе [2] по странам и в нескольких форматах включая специфичные для навигации и авиации SeeYou CUP, Openaip v1 AIP, OpenAIR и др. и это более 10 тысяч файлов данных (наборов данных скорее всего около 3-4 тысяч, поскольку одни и те же данные в могут быть в нескольких форматах. Собственно это и превращает проект из онлайн базы данных, в каталог данных где экспорт отдельных датасетов по странам вполне логичен.

Распространяется под свободной лицензией CC-BY-NC (свободное использование в некоммерческих целях). Часть кода доступно как открытый код [3]

Ссылки:
[1] https://www.openaip.net
[2] https://www.openaip.net/data/exports?page=1&limit=50&sortBy=createdAt&sortDesc=true
[3] https://github.com/openAIP

#aviation #opendata #datasets