Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Open Data Armenia
[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz
Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] https://t.me/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime
Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics
В рубрике закрытых в России данных. Министерство юстиции РФ с 2022 года не публикует в официальной статистике [1]:
- Сведения о контроле и надзоре в сфере государственной регистрации актов гражданского состояния
- Сведения о государственной регистрации актов гражданского состояния и органах ее осуществляющих

Кроме того, как минимум, с 2021 года в официальной статистике Минюста РФ не раскрываются сведения о регистрации смерти. Эти данные есть в статистике за 2019 год [2] и отсутствуют в статистике за 2021 [3].
Статистика за 2020 год на федеральном уровне не публиковалась.

При этом на региональном уровне, в некоторых регионах таких как Республика Алтай, терр управления Минюста РФ публикуют статистику, в том числе полугодовую и в том числе за 2023 год и в том числе о регистрации смертей [4]. В других регионах, терр. упр. по Владимирской области отправляют на оф. сайт Минюста РФ и сами ничего не публикуют [5], а в Республике Адыгея вообще ничего не размещают [6].

P.S. Фактически эти данные были одним из немногих источников сведений о смертности, полезные для перепроверки других источников. Но и они "были", и ненадёжны.

Ссылки:
[1] https://minjust.gov.ru/ru/activity/statistic/
[2] https://minjust.gov.ru/uploaded/files/sbornikpominyusturossii0261912.xls
[3] https://minjust.gov.ru/uploaded/files/kopiya-17241652-66814750.xls
[4] https://to02.minjust.gov.ru/ru/pages/svedeniya-o-gosudarstvennoj-reg29012024/
[5] https://to33.minjust.gov.ru/ru/activity/statistic/
[6] https://to01.minjust.gov.ru/ru/activity/statistic/

#closeddata #opendata #russia #statistics #demographics
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).

На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.

Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].

Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .

Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю

Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI

Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview

#opendata #statistics #europe
В продолжение про то какие бывают форматы общедоступных данных, есть важный факт индикатор пересечения открытых данных с областями data science. Из, примерно, 29 миллионов ресурсов (файлов) привязанных к датасетам в Dateno, только 4700 - это файлы Parquet, ни одного файла Avro или Orc.

Только около 7 тысяч файлов - это данные в виде дампов Sqlite, и то почти все они - это данные экспортируем из разного рода каталогов геоданных и входящих в файлы geopackage.

Можно, конечно, предположить что вместо специальных форматов для машинного обучения специально публикуют CSV файлы для лучшей интеграции, но это далеко не безусловный тезис потому что по опыту, на каждый нормальный файл CSV файл приходится два файла с ошибками форматирования и экспорта.

А самые популярные общедоступные (public domain и открытые данные) данные остаются CSV, XML, XLSX, JSON, TAB, XLS и менее известные в инженерной среде, но известные в научной NetCDF.

К этому можно добавить ещё пучок файлов геоданных, но в целом состав основных данных именно таков. Всё, скорее всего, немного поменяется когда закончится индексация Kaggle и HuggingFace, но за их пределами использования форматов для data science почти не наблюдается.

И это отдельный длинный разговор почему так происходит.

#opendata #dateno #datasets #statistics
В рубрике как это устроено у них статистическая служба Мексики в лице INEGI, Национального института статистики и географии, публикует топографические данные статнаблюдений в векторном виде, Shape файлах [1], а также предоставляет API для доступа к большей части статистических публикаций и индикаторов [2]. Ещё одна важная их особенность в том что по каждому наблюдению все продукты которые на его основе создаются собраны вместе на вкладках исследования можно наблюдать:
- методологию/документацию
- таблицы в Excel
- открытые данные
- микроданные (если есть)
- статсборники если есть

Все их можно скачать разом, в режиме массовой выгрузки через систему DENUE [3] сводящую метаданные из всех баз данных поддерживаемых INEGI

Ссылки:
[1] https://www.inegi.org.mx/programas/topografia/50000/#descargas
[2] https://www.inegi.org.mx/servicios/api_indicadores.html
[3] https://www.inegi.org.mx/app/descarga/

#opendata #statistics #mexico #datasets #data
В рубрике как это работает у них ILOSTAT Bulk download facility [1] сервис массовой выгрузки данных статистического подразделения Международной организации труда (ILO).

Международная организация труда ведёт несколько баз статистики труда по всему миру и предоставляет их конечным пользователям в виде портала индикаторов [2], кроме того они предоставляют сервис Bulk download facility в котором предоставляют возможности по автоматической выгрузке всей их базы данных.

Кроме того ILO предоставляют библиотеку Rilostat на языке R [3] для автоматизированного доступа к этим данным.

Итого, в дополнение к базе и интерфейсу к индикаторам ILO предоставляют:
1) Возможность выгрузки всех данных массово
2) Доступ к сервису и данным через готовое API с открытым кодом (в виде библиотеки для R, в данном случае)

Ссылки:
[1] https://ilostat.ilo.org/data/bulk/
[2] https://ilostat.ilo.org/data/
[3] https://ilostat.github.io/Rilostat/

#opendata #opensource #statistics #ilo #data
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.me/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy