Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Данные по добыче нефти в России тоже йок, РБК пишет что Росстат перестал их публиковать в ежемесячной статистике по динамике промышленного производства [1]. С одной стороны не удивительно, с другой стороны зарубежные разведки и так имеют свои источники для этих данных, а с третьей стороны у меня есть очень простой вопрос.

А где собственно постановление российского правительства запрещающее публикацию этих данных? Их отсутствие - это внутреннее решение Росстата и внутренний документ (приказ) руководителя? Постановление Пр-ва? Или, по "лучшим" практикам регулирования во время ковида, можно всё закрыть даже не имея никаких оснований?

Важно не только что делается, но и как делается. Кстати, с момента закрытия раскрытия данных можно не верить никаким утверждениям российских чиновникам по продаже и отгрузке нефти, для рынков это дополнительный фактор в сторону неопределённости.

Вообще закрытие любых экономических данных и данных о качестве жизни настораживает куда больше чем плохие значения.


Ссылки:
[1] https://www.rbc.ru/economics/26/04/2023/64492a769a794789b8b0feec

#opendata #closeddata #russia #statistics
Свежая статья [1] о Data Commons [2] от исследователей в Google с обзором текущего состояния проекта и потенциала его развития. Вообще этот проект называется Google’s Public Data Commons (GPDC) и он является открытой корпоративной альтернативой Wikidata и идее Linked Data. Главная цель проекта в том чтобы облегчить интеграцию открытых / общедоступных данных в единый граф знаний. При этом акцент у проекта явным образом на США и статистике в США, это именно те данные которых там более всего, но по другим территориям данные тоже есть, хотя их и меньше.

Собственно статья хотя и научная, но обзорная, о том как этот проект устроен внутри и такие идеи как подключение к нему языковых моделей для структурированных ответов на вопросы на естественном языке.

Ссылки:
[1] https://docs.datacommons.org/papers/dc_overview.pdf
[2] https://www.datacommons.org

#opendata #datasets #statistics
Полезное чтение про данные, технологии и не только:
- Generative AI Prohibited Use Policy [1] политика Google по продуктам Generative AI. Документ от марта 2023 года, хорош своей лаконичностью, многим нормотворцам на заметку. Саморегулирование в области ИИ должно быть, в том числе, таким.
- TileDB closes a $34M Series B round [2] про стартап TileDB облачной и с открытым кодом СУБД который привлёк раунд B инвестиций на $34M. Из особенностей продукта это ориентация на данные в виде массивов и адаптированность под данные для машинного обучения и геоданные
- Where is data diplomacy happening? A reading list [3] о том где и как происходит "дипломатия данных" в мире. Неплохой список, со ссылками на практические инициативы, книги и научные статьи.
- From Data to Decision Intelligence: The Potential of Decision Accelerator Labs [4] новый-старый термин Decision Intelligence в статье Stefaan G. Verhulst о недостаточности решений основанных на данных и необходимости их интеграции с существующими процессами, практиками, жизненным опытом и так далее. Термин давно встречается в контексте продуктов для business intelligence [5]
- Ranking Nations [6] книга за авторством Stephen Morse о том как читать и понимать рейтинги стран основанные на статистических показателях. Книга свежая, я лично её ещё не читал, но скорее всего запланирую на ближайшие месяцы. Судя по описанию она весьма полезна для развития критического мышления в приложении к глобальным оценкам.

Ссылки:
[1] https://policies.google.com/terms/generative-ai/use-policy
[2] https://tiledb.com/blog/tiledb-closes-series-b-to-advance-the-vision-of-the-modern-database
[3] https://medium.com/odi-research/where-is-data-diplomacy-happening-a-reading-list-45ce5eddf016
[4] https://medium.com/data-stewards-network/from-data-to-decision-intelligence-the-potential-of-decision-accelerator-labs-33f4060734a8
[5] https://en.wikipedia.org/wiki/Decision_intelligence
[6] https://www.e-elgar.com/shop/usd/ranking-nations-9781800886308.html

#readings #ai #data #policies #statistics
В рубрике как это работает у них портал показателей и одновременно портал открытых данных статистической службы Ирландии data.cso.ie [1]. Каждый показатель рассматривается, одновременно, ещё и как набор данных и на каждой отдельной странице показателя есть, как отображение для статистиков и аналитиков, с выбором параметров и визуализацией так и для разработчиков с API и возможностью полной выгрузки набора данных в форматах XLSX, CSV, PX, JSON-Stat.

В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.

Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat

#opendata #datasets #opensource #datacatalogs #statistics #ireland
Так уж сложилось что я уже лет десять мониторю и иногда выкладываю [1] цифры по legislative burden нормативной нагрузке нарастающей с ростом принимаемых законов и других НПА ежегодно. Так в 2022 году в России было принято 645 федеральных законов из которых 180 было принято в декабре 2022 года, а 55 было принято в ноябре 2022 года. Все эти цифры это абсолютные рекорды. Последний номер закона подписанного в ноябре 2022 года был 465-ФЗ. А вот в 2023 году за ноябрь уже принято 57 законов и номер последнего 564-ФЗ. А то есть есть хорошие шансы что до конца декабря общее число принятых законов составит 750, а это +16% к аналогичному периоду прошлого года (простите что срываюсь на этот бюрократический язык). А ещё можно и нужно замерить число указов Президента РФ, распоряжений и постановлений Правительства РФ и так далее.

Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.

P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.

Ссылки:
[1] https://t.me/begtin/3511

#laws #lawburden #data #statistics
В рубрике как это работает у них большое изменение в статистике последних лет - это превращение статистических порталов в порталы данных. Если в классических стат порталах акцент был на визуализации и экспорте данных в XML/CSV/XLSX, то сейчас почти все новые порталы сразу называют порталами данных, включают API, как правило, REST API или более специфичное для статистики API на базе SDMX, а также добавляют возможность получения индикатора целиком и получение статистической базы целиком.

В качестве примера, порталы на базе open-source движка .Stat Suite [1].

- https://data.ilo.org - портал данных международной организации труда. Более тысячи индикаторов, JSON API, экспорт в CSV
- https://stats.pacificdata.org - Pacific Data Hub Explorer (индикаторы по странам Тихого океана)
- https://dataexplorer.unescap.org - портал индикаторов целей устойчивого развития по азиатским странам Тихого океана
- https://statdb.nso.gov.mt - портал индикаторов Мальты

и многие другие, в мире около десятка национальных и международных порталов сделанных только на этом движке.

При этом надо сказать что большая часть статистических индикаторов в мире публикуются, всё ещё, очень консервативно. Кроме .Stat Suite из массовых продуктов есть только PxWeb [2] для публикации индикаторов, а в большинстве остальных случаев статслужбы публикуют данные, или на собственноручно разработанных продуктах, или в виде Excel файлов, а иногда и PDF файлов. Тем не менее ситуация постепенно меняется и, как минимум, данные которые и ранее собирались в рамках статистических наблюдений становятся более доступными.

Ссылки:
[1] https://siscc.org
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/px-web/

#opendata #statistics #datacatalogs
В рубрике закрытых данных в России.

1. Закрытие статистики Росавиации

С февраля 2022 года не публикуется ведомственная статистика Росавиации которая включает:
- Основные производственные показатели гражданской авиации [1]
- Перевозки пассажиров [2]
- Перевозки грузов и почты [3]

2. Закрытие статистики органов прокуратуры

Генпрокуратура не только не обновляет портал Crimestat.ru [4] с января 2023 года, но и с февраля 2023 года не размещает Статистические данные об основных показателях деятельности органов прокуратуры [5]. Ведомственная статистика осталась на сайтах региональных органов прокуратуры, например, Москвы [6]

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[2] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
[3] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-gruzov-i-pochty/
[4] https://crimestat.ru
[5] https://epp.genproc.gov.ru/web/gprf/activity/statistics/office/result
[6] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#closeddata #russia #opendata #statistics #transport #crime
О доступности статистики

Часть 2/2

Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.

Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.

С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.

А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.

Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics

#opendata #statistics #datasets #indicators #thoughts
В рубрике о закрытых данных в России, с октября 2022 года более не публикуются Оперативные данные «Единая энергетическая система России: промежуточные итоги». ранее публиковавшиеся в форме PDF отчетов информационных обзоров [1] со сведениями о энергопотреблении в России и другим индикаторам работы единой энергосистемы страны.

Ссылки:
[1] https://www.so-ups.ru/functioning/ups/ups-review/ups-review22/

#opendata #closeddata #russia #energy #statistics
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.

В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].

Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета

Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.

А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.


Ссылки:
[1] https://t.me/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/

#opendata #statistics #indicators #malaysia #datasets #datacatalogs