Ivan Begtin
9.37K subscribers
2.19K photos
4 videos
104 files
4.91K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.

А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов

Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.

Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.

#opendata #statistics #thoughts
В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.

Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]

Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.


Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/

#opendata #openaccess #datacatalogs
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.

И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.

Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/

#opendata #geodata #datasets
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.

Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.

Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam

#opendata #datasets #statistics #census