Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Я знаю много источников данных о России, внутри России, за пределами Росси и не только. Большая часть того что я знаю является госданными, но есть и альтернативные источники данных, негосударственные.

Сейчас многие официальные источники исчезают или "превращаются в тыквы" (теряют детализацию или оперативность). Я подозреваю что все соцопросы сейчас превратятся именно что в тыквы, они уже то не очень, а теперь будут ещё хуже.

Вопрос к читателям, есть ли альтернативные данные по тому что происходит с российской экономикой и обществом сейчас? В идеале, на гиперлокальном уровне, до городов, но региональный и страновой уровни тоже важно.

Например, есть ли источники данных для ежедневного мониторинга цен на потребительскую корзину? Или уровень ожиданий у предпринимателей? Причём неважно, источники этих данных бесплатные или платные, главное чтобы достоверные и не на госданных.

Обсудим в чате @begtinchat

#opendata #data #indicators
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.

DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.

Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.

Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf

#opendata #dataset #economy #france #indicators
О доступности статистики

Часть 2/2

Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.

Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.

С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.

А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.

Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics

#opendata #statistics #datasets #indicators #thoughts
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.

В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].

Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета

Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.

А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.


Ссылки:
[1] https://t.me/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/

#opendata #statistics #indicators #malaysia #datasets #datacatalogs
В рубрике интересных каталогов данных UN Arab Region Data and Policy Support Hub [1] и ARGP: Arab regional geospatial portal [2] порталы данных платформы регионального сотрудничества ООН посвящённые арабским странам.

Отличаются тем что агрегируют довольно много данных из других порталов ООН (data.un.org, data.worldbank.org) и других источников около 10 тысяч наборов данных часть из которых представлена статистическими индикаторами, часть геоданными. Поскольку агрегация данных выборочная лишь частично то много данных собрано не только по арабским странам.

Также декларируют наличие данных и моделей для машинного обучения. Хотя вот это для меня загадка поскольку почти все индикаторы там внутри - это годовые показатели, впрочем в геоданных есть наложение разных детализированных данных и там такое применение вполне логично.

Туда же можно отнести поисковую систему Manara (Istinara) позволяющая искать по миллионам ООНовских документам данным и картам. Конкретно сейчас поиск по данным у них был поломан, но поиск по картам работал вполне сносно

Ссылки:
[1] https://data.as-rcp.org
[2] https://data.as-rcp.org/GIS
[3] https://manara.as-rcp.org

#opendata #data #indicators #datacatalogs #un
Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics