К вопросу о том как и кто являются пользователями данных и как оценивать насколько тот или иной публичный дата продукт / каталог данных может использоваться.
Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)
2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения
3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.
Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.
К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.
#opendata #users #thoughts #data
Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)
2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения
3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.
Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.
К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.
#opendata #users #thoughts #data
👍16❤1✍1
Forwarded from Dateno
Open Data in Armenia: No National Data Portal - Yet
One of the most notable characteristics of Armenia’s open data landscape is the absence of a government-run national open data portal. This is especially interesting given that Armenia has been a member of the Open Government Partnership since 2011. However, the country’s transparency efforts historically focused more on public dialogue and civic participation rather than open data infrastructure.
Instead of an official portal, Armenia relies on a community-driven initiative - Open Data Armenia (data.opendata.am), which aggregates a wide range of datasets from both official national sources and international organizations.
Within the Dateno Data Catalog Registry, Armenia currently has 11 registered data catalogs (https://dateno.io/registry/country/AM/), which can be grouped as follows:
- 2 open data portals
- 6 geospatial data catalogs
- 3 statistical and microdata catalogs
Armenia’s official statistics are published via statbank.armstat.am, built on the open-source PxWeb platform. Unfortunately, this installation has not been updated for many years and does not provide a public API-unlike most modern PxWeb deployments. For this reason, the portal is not yet indexed by Dateno, unlike similar statistical portals in other countries.
At the same time, a significant amount of Armenian data is available through major international statistical platforms such as the World Bank, BIS, WHO, and others - and already indexed in Dateno.
Armenia is also home to another open data portal with a global scope: CryptoData (https://cryptodata.center/), which provides a large collection of cryptocurrency datasets. This project was also developed by the Open Data Armenia initiative.
Additional Armenian datasets can be found within the statistical systems of regional organizations where Armenia is a member - including CIS (https://new.cisstat.org) and EAEU (https://eec.eaeunion.org/comission/department/dep_stat/union_stat/) - as well as across numerous official government websites.
#opendata #armenia #Dateno
One of the most notable characteristics of Armenia’s open data landscape is the absence of a government-run national open data portal. This is especially interesting given that Armenia has been a member of the Open Government Partnership since 2011. However, the country’s transparency efforts historically focused more on public dialogue and civic participation rather than open data infrastructure.
Instead of an official portal, Armenia relies on a community-driven initiative - Open Data Armenia (data.opendata.am), which aggregates a wide range of datasets from both official national sources and international organizations.
Within the Dateno Data Catalog Registry, Armenia currently has 11 registered data catalogs (https://dateno.io/registry/country/AM/), which can be grouped as follows:
- 2 open data portals
- 6 geospatial data catalogs
- 3 statistical and microdata catalogs
Armenia’s official statistics are published via statbank.armstat.am, built on the open-source PxWeb platform. Unfortunately, this installation has not been updated for many years and does not provide a public API-unlike most modern PxWeb deployments. For this reason, the portal is not yet indexed by Dateno, unlike similar statistical portals in other countries.
At the same time, a significant amount of Armenian data is available through major international statistical platforms such as the World Bank, BIS, WHO, and others - and already indexed in Dateno.
Armenia is also home to another open data portal with a global scope: CryptoData (https://cryptodata.center/), which provides a large collection of cryptocurrency datasets. This project was also developed by the Open Data Armenia initiative.
Additional Armenian datasets can be found within the statistical systems of regional organizations where Armenia is a member - including CIS (https://new.cisstat.org) and EAEU (https://eec.eaeunion.org/comission/department/dep_stat/union_stat/) - as well as across numerous official government websites.
#opendata #armenia #Dateno
✍3