Ivan Begtin
9.37K subscribers
2.16K photos
3 videos
104 files
4.88K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Вышла новая версия 1.3.0 DuckDB [1] с кучей изменений и улучшений.

Из важного стоит отметить:
1. Кэширование внешних файлов.
Теперь при обращении к файлу по ссылке он по умолчанию кешируется. Это очень удобно при работе с файлами относительно небольшого объёма.Опять же DuckDB здесь выступает скорее как query engine чем как база данных

2. Прямое обращение к файлу с командной строки

Позволяет сразу передать файл параметром и сделать запрос. Удобно тем что позволяет сократить описание к командной сроке и сэкономить время.

3. Расширение для кодировок
Это, конечно, давно ожидаемая [2] возможность работы с файлами в любой кодировке. Многим это существенно облегчит жизнь.

Также пишут что системно переработали код чтения и записи в Parquet файлы и всё должно быть быстрее, вот это надо будет проверить. Потому что чтение вроде как и раньше было неплохо, а вот запись в Parquet в DuckDB съедала много оперативной памяти.

Там ещё много изменений связанных с работой с геоданными, JOIN'ам, инструмент явно и быстро улучшается.

Ссылки:
[1] https://duckdb.org/2025/05/21/announcing-duckdb-130.html
[2] https://duckdb.org/docs/stable/core_extensions/encodings

#opensource #dataengineering #duckdb
К вопросу о российской статистике и доступных онлайн ресурсах. При архивации сайтов Росстата всплывают интересные артефакты, например, сайт mosag.rosstat.gov.ru с названием О портале Статистический портал Москвы и Московской агломерации

Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.

Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.

Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.

Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.

Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.

#opendata #data #statistics
Я ранее уже писал про хакатон СберИндекса на котором ожидаются интересные муниципальные данные и не могу не обратить внимание на группу задач на сайте хакатона которые можно назвать "новые наборы данных".

Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.

Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.

1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.

2. Некоторые статпоказатели в ЕМИСС

ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов

Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.

3. Международные данные ООН

Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.

4. Региональные порталы данных: Москва

В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе

5. И, наконец, конечно поиск данных через ИИ

Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки

Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.

#opendata #statistics #municipalities #cities #russia
В рубрике закрытых данных в России, вышло Постановление Правительства Российской Федерации от 17.05.2025 № 679"О приостановлении действия пункта 21 Положения о федеральной государственной информационной системе "Единый фонд геологической информации о недрах" [1] согласно которому доступ в ЕФГИ (efgi.ru) [2] теперь только через Госуслуги.

Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.

Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru

#opendata #closeddata #russia
В рубрике как это устроено у них портал данных Международной продовольственной программы (WFP) [1]

Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.

Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.

С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.

Для примера, данные по районам Армении.

Ссылки:
[1] https://dataviz.vam.wfp.org

#opendata #dataviz #climate #data #russia