Ivan Begtin
9.31K subscribers
2.1K photos
3 videos
102 files
4.82K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике как это устроено у них статистический портал Канады [1] фактически превращённый в портал открытых данных. В общей сложности более 12 тысяч наборов данных из которых 11.5 тысяч - это табличные данные индикаторов с возможностью их выгрузки в форматах CSV и SDMX, а также через открытое API [2].

Характерная особенность что их аналитические тексты - это де факто data stories в форме лонгридов к которым всегда приложены таблицы с данными в их же системе [3].

То есть даже те кто приходит почитать текст имеют возможность сразу открыть таблицу и изучить данные.

Внутри всё работает на SDMX движке и есть возможность работать с API основанном на SDMX для подключения к данным. [4]

В принципе, это иллюстрация одного из трендов развития статистических продуктов в сторону профессиональных стандартов работы с данными, в данном случае SDMX.

Ссылки:
[1] https://www150.statcan.gc.ca/n1/en/type/data?MM=1
[2] https://www.statcan.gc.ca/en/developers?HPA=1
[3] https://www150.statcan.gc.ca/n1/daily-quotidien/241003/dq241003a-eng.htm
[4] https://www150.statcan.gc.ca/t1/wds/sdmx/statcan/rest/data/DF_17100005/1.1.1

#statistics #canada #opendata #sdmx #api #data
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings
В рубрике как это работает у них портал данных на базе Arab Region Data and Policy Support Hub (RCP) [1] создан при агентстве ООН The UN Regional Collaboration Platform (RCP) for Arab States.

Его можно отнести к одному из порталов данных ООН которых всего несколько десятков, часть из них базы индикаторов, часть каталоги данных, часть системы раскрытия информации в рамках инициатив прозрачности.

Этот портал - гибридный портал индикаторов и открытых данных. В его каталоге [2] 132 тысячи наборов данных большая часть из которых - это индикаторы из других проектов и сайтов ООН, таких как портал данных Всемирного банка и Портал статслужбы ООН.

Почти все данные - это статистика и в этом смысл проект напоминает другой похожий о котором я ранее писал, это DBNomics. Правда DBNomics несколько побольше, там 92 источника данных, 30 тысяч наборов данных и 1.4 миллиарда временных рядов.

В портале данных RCP такого числа временных рядов нет из-за отсутствия дробления/разрезания датасетов по территориям.

А также у портала есть документированное и недокументированное API, раздел с геоданными и статистические дашборды.

Ссылки:
[1] https://data.as-rcp.org/

#opendata #arabstates #data #datacatalogs #statistics
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.

Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.

Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.

#opendata #data #statistics #russia
И, вдогонку, признаки хорошо организованной статистической системы:
1. Данные на первом месте (data-first). Это основной тип продуктов, вся остальная деятельность статслужбы должна быть вторичны.
2. Данные доступны в современных статистических (JSON-Stat, SDMX) или аналитических (Parquet) форматах. Или, как минимум, в CSV, JSON, XML с документацией схемы данных.
3. Все метаданных используемые в статбазах и публикациях систематизированы и ведутся в системе управления метаданными, с регулярными обновлениями.
4. Данные доступны с максимально возможной глубиной, с момента ведения переписей, сбора официальной статистики.
5. Доступ ко всем статданным и базам данных возможен через API
6. Все данные доступны для массовой выгрузки, без необходимости запрашивать по API тысячи индикаторов, но с возможностью скачать их целиком.
7. Исторические статистические сборники оцифрованы, доступны
8. Абсолютно все статистические сборники вначале публикуются онлайн и печатаются только в режиме печати по требованию
9. Статистические сборники для публикации в вебе создаются как интерактивные истории в модели data storytelling
10. Статистические отчеты, если они создаются как PDF файлы, являются книгами и публикуются только в случае значимых смысловых документов, но не для печати таблиц имеющихся в статистических базах данных
11. Статистику имеющую геопространственную привязку должна быть возможность увидеть на интерактивной карте.
12. Вся геопространственная статистика должна быть доступна как открытые данные и открытые OGC совместимые точки подключения к API WFS, WMS
13. Доступ к статистике осуществляется через каталог или поисковую систему по данным, включая таблицы, визуализацию, методологию и публикации.
14. Должна быть информационная политика дефрагментации данных. В рамках конкретной темы или отрасли должна быть возможность посмотреть или найти данные за любой период времени в любой форме, без необходимости искать в десятках статистических и ведомственных информационных системах.

#statistics #thoughts
В рубрике как это устроено у них официальная статистика Мексики ведётся Национальным институтом статистики и географии. Это довольно частое совмещение функций в латиноамериканских странах. Особенность мексиканской статистики в том что на официальном сайте де факто присутствует несколько каталогов публикаций/индикаторов/таблиц [1] каждый из которых можно рассматривать как каталоги данных и геоданных.

Например:
- 85+ тысяч датасетов с геоданными в разделе карт [2], преимущественно машиночитаемые
- 12+ тысяч статистических публикаций из которых около половины - это файлы Excel
- 20+ тысяч таблиц, данных, геоданных и микроданных в разделе массовой выгрузки (bulk download)
- 24+ тысячи индикаторов в банке индикаторов с их машиночитаемой выгрузкой

и другие данные в разделе открытых данных [6].

Для полного счастья нехватает только чтобы все эти данные были упакованы в единый дата каталог, но даже в текущем виде всё довольно неплохо организовано.

Ссылки:
[1] https://www.inegi.org.mx/siscon/
[2] https://en.www.inegi.org.mx/app/mapas/
[3] https://www.inegi.org.mx/app/publicaciones/
[4] https://en.www.inegi.org.mx/app/descarga/
[5] https://en.www.inegi.org.mx/app/indicadores/
[6] https://www.inegi.org.mx/datosabiertos/

#opendata #mexico #statistics
В The Economist статья The British state is blind [1] о том что статслужба Великобритании неправильно считала миграцию в страну и сильно её занижала. По оценкам с 2019 года, как минимум, был недооценён въезд около 1 миллиона мигрантов.

Статья под пэйволом, но есть копии её текста [2].

Тут бы, конечно, сдержаться от саркастического смеха, но сложно.

Чем отличается британская статслужба от других? Только тем что попались и эту ошибку признают. Почему мы полагаем что другие официальные стат агентства работают лучше или что их данные достовернее? Официальная статистика во многих странах уже достаточно давно в кризисе. Во многих неразвитых и развивающихся странах всё ещё полно технических и методических вопросов хотя бы по основным статпоказателям, а во многих развитых странах альтернативные источники данных становятся приоритетнее,

А думаете статистика в вашей стране не врёт?

Ссылки:
[1] https://www.economist.com/britain/2024/12/04/the-british-state-is-blind
[2] https://us6.campaign-archive.com/?e=35defdcd70&u=1a990feb5c&id=c349203b07#mctoc4

#statistics #data #migration #uk
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].

От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.

Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.

Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.

Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.

Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.

Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru

#opendata #closeddata #russia #statistics
Каждый имеет право на ответ (с)

Публикую текст от пресс-секретаря Росстата по ситуации с доступностью данных о розничных продажах.

#opendata #rosstat #statistics #russia
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].

Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.

Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]

и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.

Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action

#opendata #datasets #europe #statistics #healthcare