К вопросу о российской статистике и доступных онлайн ресурсах. При архивации сайтов Росстата всплывают интересные артефакты, например, сайт mosag.rosstat.gov.ru с названием О портале Статистический портал Москвы и Московской агломерации
Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.
Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.
Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.
Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.
Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.
#opendata #data #statistics
Я, честно говоря, вначале обрадовался и решил что именно там сейчас найдётся актуальная база статпоказателей, но нет.
Это оказался всего лишь BI портал, с годовыми показателями за 2010-2022 годы по Москве и Московской области, без муниципального деления.
Не то чтобы он совсем неживой, кое где есть данные за 2023 год, но за 2024 уже не найти и никакой ширины охвата там нет.
Архивации, он, разумеется, не поддаётся поскольку выгрузка данных там только интерактивная, а страницы BI порталов не архивируются.
Вспоминается анекдот о том что в продаже появились подделки ёлочных игрушек, выглядят как настоящие, но не радуют.
#opendata #data #statistics
😢15❤2
Я ранее уже писал про хакатон СберИндекса на котором ожидаются интересные муниципальные данные и не могу не обратить внимание на группу задач на сайте хакатона которые можно назвать "новые наборы данных".
Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.
Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.
1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.
2. Некоторые статпоказатели в ЕМИСС
ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов
Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.
3. Международные данные ООН
Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.
4. Региональные порталы данных: Москва
В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе
5. И, наконец, конечно поиск данных через ИИ
Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки
—
Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.
#opendata #statistics #municipalities #cities #russia
Если вкратце, то в России и на постсоветском пространстве стран не входящих в ЕС, есть застарелая проблема с отсутствием муниципальных данных и, в принципе, систематизированного сбора муниципальной статистики. То что есть сейчас, скажем так, вызывает некоторые сомнения.
Поэтому всегда остаётся вопрос, где взять муниципальные данные? И тут я обозначу некоторые очевидные и не такие очевидные источники.
1. Терр органы Росстата
У Росстата множество терр. органов с разной степенью качества и полноты публикации материалов. Тем не менее на их сайтах бывают и Excel файлы с паспортами муниципалитетов, и отдельные статистические таблицы и отчеты и многое другое. Работа с этими данными может потребовать навыков их извлечения из PDF и MS Word файлов, но может дать полезные дополнительные данные по конкретным регионам и муниципалитетам.
2. Некоторые статпоказатели в ЕМИСС
ЕМИСС - это единая межведомственная система статистики (fedstat.ru) и, в целом, она не то чтобы наполнена очень актуальными данными и по большей части там про страну в целом и про регионы, тем не менее, там есть несколько показателей охватывающих города (не все муниципалитеты, а именно города).
Например:
- Индекс потребительских цен (тарифов) на отдельные товары и услуги - обновляется еженедельно, 145 видов товаров и несколько сотен городов
Возможно там есть и другие данные, их можно поискать самостоятельно или дождаться когда мы закончим архивацию ЕМИСС, но это может быть и до хакатона, так что имеет смысл поизучать самостоятельно.
3. Международные данные ООН
Да, некоторые данные связанные с городами есть в международной статистике. Например, статистике ООН есть показатели демографии за 2005-2012 годы по российским городам. Конечно данные за 2012 год уже не очень актуальны, но речь о том что в базе ООН. Потому что есть и более новые датасеты, 4-х летней давности. О чём я? О том что стоит поискать там внимательнее и на других порталах международной статистики, там могут быть данные привязанные к городам.
4. Региональные порталы данных: Москва
В некоторых регионах есть, и живые порталы открытых данных и другие каталоги данных. Например, в Москве живой портал data.mos.ru и ehd.moscow. Подсказка и там и там много муниципальных данных, но нужно приложить усилия для их интеграции с другими данными, например, теми что есть в СберИндексе
5. И, наконец, конечно поиск данных через ИИ
Да, всегда можно сформулировать промпт "Найди сайты с муниципальной статистикой Санкт-Петербурга" или для любого другого региона и получить некоторые полезные ссылки
—
Это не исчерпывающий список источников муниципальных и региональных данных, несомненно их гораздо больше. Создание сводных наборов интегрирующих хотя бы некоторые из них - это важный дата продукт полезный для анализа данных.
#opendata #statistics #municipalities #cities #russia
❤7✍4
В рубрике закрытых данных в России, вышло Постановление Правительства Российской Федерации от 17.05.2025 № 679"О приостановлении действия пункта 21 Положения о федеральной государственной информационной системе "Единый фонд геологической информации о недрах" [1] согласно которому доступ в ЕФГИ (efgi.ru) [2] теперь только через Госуслуги.
Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.
Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru
#opendata #closeddata #russia
Новость несомненно печальная. Доступ через ЕСИА отрубает любую возможность автоматического доступа к данным, кроме как если владелец данных не предоставить API отдельно.
Ссылки:
[1] http://publication.pravo.gov.ru/document/0001202505190033?index=1
[2] https://efgi.ru
#opendata #closeddata #russia
🤔4😢4💯2✍1👍1
В рубрике как это устроено у них портал данных Международной продовольственной программы (WFP) [1]
Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.
Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.
С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.
Для примера, данные по районам Армении.
Ссылки:
[1] https://dataviz.vam.wfp.org
#opendata #dataviz #climate #data #russia
Включает данные климатического эксплорера где по большинстве стран можно узнать текущие и исторические данные по осадкам и другим климатическим данным.
Выглядит очень интересно и может быть полезно для тех кто анализирует гиперлокальные (муниципальные) данные поскольку по большинству стран мониторинг охватывает до второго административного уровня - муниципаоитетов, проще говоря.
С одним очень большим но... Это большое НО - это Россия. По России доступны только общестрановые данные, что для огромной страны кажется особенно странным. Нет даже данных по регионам, хотя на карте они все есть и у структур ООН есть данные о российских границах. Лично я, конечно, подозреваю с чем это связано.
Для примера, данные по районам Армении.
Ссылки:
[1] https://dataviz.vam.wfp.org
#opendata #dataviz #climate #data #russia
🔥4⚡2👍2✍1
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Главархив Москвы запустил бесплатный электронный читальный зал
На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).
Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).
Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
На сайте Главархива Москвы (cgamos.ru) появился сервис для онлайн-доступа к читальному залу: пользователи теперь могут просматривать оцифрованные копии архивных дел (метрические книги, ревизский сказки, личные дела и пр.), а со следующего года можно будет «воспользоваться каталогом аудиовизуальных документов, книжных и периодических изданий» (надеюсь, тут подразумевается использование не только каталога, но и доступ к этим изданиям).
Хочется надеяться, что другие региональные архивы возьмут пример с Главархива, а может пойдут и дальше - добавят возможность бесплатно скачать нужный документ или отдельные страницы. Например, электронный читальный зал уже несколько лет доступен в Санкт-Петербурге (spbarchives.ru), но, к сожалению, только на платной основе (оплатить необходимо как доступ к просмотру документов, так и их постраничную выгрузку).
Напоминаю, что с прошлого года мы ведем проект Цифровой архив госфинансов и госуправления (@finlibraryru, finlibrary.ru), в котором можно не только посмотреть любой заинтересовавший документ, но и скачать его.
1👍6⚡4🔥1
Полезное чтение про данные, технологии и не только:
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
- On file formats [1] автор систематизирует рекомендации тем кто придумывает собственные форматы файлов. Всё достаточно сжато и по делу.
- A deep dive into AlloyDB’s vector search enhancements [2] о применении векторного поиска и операций со ScanNN индексе в AlloyDB расширении для Postgres. О том как ИИ проникает в СУБД и там закрепляется.
- TrailBase [3] замена Firebase с открытым кодом
- LiamERD [4] красивые ERD диаграммы для ваших баз данных, с открытым кодом
Ссылки:
[1] https://solhsa.com/oldernews2025.html#ON-FILE-FORMATS
[2] https://cloud.google.com/blog/products/databases/alloydb-ais-scann-index-improves-search-on-all-kinds-of-data/
[3] https://github.com/trailbaseio/trailbase
[4] https://liambx.com/
#opensource #data #datatools
Google Cloud Blog
AlloyDB AI’s ScaNN index improves search on all kinds of data | Google Cloud Blog
Recent innovations in AlloyDB AI’s ScaNN index improve performance and quality of search over structured and unstructured data.
✍5
Microsoft опубликовали Windows Subsystem for Linux как открытый код под MIT лицензией [1], а это большой проект с 70 контрибьюторами и 9 годами разработки.
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
У них там более тысячи issues большая часть которых это запросы на фичи, может быть теперь и появление новых возможностей ускорится.
Больше открытого исходного кода под свободными лицензиями - это, несомненно, хорошая новость.
Ссылки:
[1] https://blogs.windows.com/windowsdeveloper/2025/05/19/the-windows-subsystem-for-linux-is-now-open-source/
#opensource #microsoft
✍9🍾6🌚1
Для тех кто ищет российские муниципальные данные и не знает где найти, я ранее писал о некоторых очевидных и неочевидных их источниках, но их, конечно же, гораздо больше.
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
Вот тут пополнение списка, с данными по городам и районам:
- ДомКлик - https://blog.domclick.ru/analytics
- ВЭБ Индекс - https://citylifeindex.ru/database?pageType=CITIES
- Единое Хранилище Данных Москвы - https://ehd.moscow/
- Показатели жилищного строительства - https://наш.дом.рф/аналитика/показатели_жилищного_строительства
Кроме того в ЕМИСС (fedstat.ru) есть, как минимум, 101 индикатор которые охватывают города, только крупнейшие, но хотя бы так.
С некоторыми разумными усилиями эти данные могут быть связаны с данными Сбербанка на хакатоне Сбериндекса, на который ещё можно податься.
#opendata #hyperlocal #hackathons #data #datasets
👍12
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.
Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.
#readings #writings #privacy
Forbes.ru
Тест на антиутопию: на что похож закон о контроле иностранцев через смартфоны
С 1 сентября власти Москвы и Московской области начнут контролировать местоположение въезжающих в столичный регион мигрантов. Законопроект о проведении такого эксперимента 20 мая приняли депутаты Госдумы. Иностранцы должны будут зарегистрироваться в
👍11💯3🤣3🤔2❤1😢1🌚1
Что означает новость про то что Grok будет встроен в телеграм? То что появляется дополнительная сторона в обработке персональных данных при использовании Телеграм. Вопрос в том в каком объёме и в каких случаях данные будут передаваться. Подозреваю что согласие будет однократным, а использование без ограничений.
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
То что на это возбудятся европейские регуляторы - это несомненно. Российский регулятор тоже, но в России Телеграм практически безальтернативен.
Очень жду когда кто-то предметно проведет анализ этой интеграции и её последствий.
#privacy #telegram
🔥6🤔5
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно видео про интеграцию Grok'а и Telegram из поста Дурова в X https://x.com/durov/status/1927705717626003759
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
Интеграция там совсем не лайт, а вполне себе углублённая.
#ai #telegram #privacy
🤔4👍3❤1
Yambda-5B [1] огромный набор данных от Яндекса с данными по рекомендациям в Яндекс Музыке. В максимальной версии - это около 75GB в файлах Parquet и чуть менее 5 миллиардов записей. Это реально очень много и на настольном железе поработать с таким объёмом будет очень сложно.
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
Будет очень интересен тем кто изучает рекомендательные системы.
Ссылки:
[1] https://huggingface.co/datasets/yandex/yambda
#opendata #datasets #data #yandex
❤🔥12👍4❤3
Я тут часто пишу про муниципальные данные и что некоторые, всё же, есть, ну или хотя бы с какой-то агрегацией. Очень часто данные скрыты в публикациях и презентациях. Что, сильно, ограничивает их сбор, но вручную можно иа даже их. К примеру, портал криминальной статистики crimestat.ru не обновляется с 4-го квартала 2022 года, но кусочки статистики есть в отдельных разделах Генпрокуратуры РФ. В разном качестве, разных форматах и разной периодичностью, но кое что есть. Например, в разделе прокуратуры Москвы есть графики со статистикой по округам [1]. Да, в pdf или pptx файлах презентаций, но на сайте МВД нет и такой детализации как и на большинстве сайтов региональных прокуратур. Правда я скажу честно что не проверял их все, а только примерно штук 20, но картина общая именно такова. В основном же, либо актуальные данные очень обобщённые (и по разному публикуемые!), либо не публикуются вовсе много лет.
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
Хотя я и искал плохие примеры публикации статистики, это лучше чем полное её отсутствие. При большом желании можно вручную через LLM'ки превращать презентации с графиками в таблицы и восстанавливать временные ряды и получать хоть какое-то приближение к муниципальных данным.
Ссылки:
[1] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result
#opendata #closeddata #russia #crimestatistics
✍8