Ivan Begtin
9.37K subscribers
2.17K photos
4 videos
104 files
4.9K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Запоздалая новость российской статистики, система ЕМИСС (fedstat.ru) будет выведена из эксплуатации до 31 декабря 2025 года. Формулировки совместного приказа Минцифры и Росстата упоминают что именно до, а то есть в любой день до конца этого года, хоть завтра.

Что важно:
1. Этого приказа нет на сайте Минцифры России [1]. Единственный приказ опубликованный приказ с этим номером 1138 есть за 2021 год и нет на сайте официального опубликования [2].
2. Этого приказа нет на сайте Росстата [3] (или не находится и сильно далеко спрятан) и точно нет на сервере официального опубликования [4]

Откуда такая таинственность и почему он есть только в Консультант Плюс?

А самое главное, что заменит ЕМИСС? И существует ли уже это что-то

Ссылки:
[1] https://digital.gov.ru/documents
[2] http://publication.pravo.gov.ru/search/foiv290?pageSize=30&index=1&SignatoryAuthorityId=1ac1ee36-2621-4c4f-917f-9bffc35d4671&EoNumber=1138&DocumentTypes=2dddb344-d3e2-4785-a899-7aa12bd47b6f&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
[3] https://rosstat.gov.ru/search?q=%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7+673&date_from=01.01.2024&content=on&date_to=31.12.2024&search_by=all&sort=relevance
[4] http://publication.pravo.gov.ru/search/foiv296?pageSize=30&index=1&SignatoryAuthorityId=24a476cb-b5ae-46c7-b46a-194c8ee1e29a&EoNumber=673&&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1

#opendata #closeddata #russia #statistics
Хороший разбор в виде дата истории темы зависимости даты рождения и даты смерти в блоге The Pudding [1]. Без какой-то единой визуализации, но со множеством графиков иллюстрирующих изыскания автора и выводы о том что да, вероятность смерти у человека выше в день рождения и близкие к нему дни и это превышение выше статистической погрешности.

Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.

Там же есть ссылки на исследования с большими выборками, но теми же результатами.

Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.

P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.

Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/

#opendata #dataviz #curiosity #statistics
Как читать отчёты Счетной палаты в РФ ? Не надо читать финальные выводы и довольно бесполезно читать вступление. Всё самое главное посередине там где изложение фактов. Какие-то факты могут отсутствовать, может не быть иногда глубины, но те что приведены, как правило, достаточно точны.

История с ГАС Правосудие и потерей огромного объёма данных судебных решений именно тот случай [1]. Спасибо ребятам из Если быть точным за подробное изложение и анализ этой истории [2]. Единственно с чем я несогласен, а это не надо сотням людей использовать один парсер. Нужна была бы открытая база судебных решений которая когда-то была в Росправосудии. Парсер - это плохой путь, приводящий к массовому применении каптчи. Но создать ресурс с данными тоже непросто, его могут быстро заблокировать.

Однако в этой истории про ГАС Правосудие я хочу сделать акцент на 60+ миллиардах потраченных на эту систему денег, и даже не на то что их взломали, и это всячески скрывали. А на том у что у системы не было резервных копий.

И скажу я вам не тая, подозреваю что это не единственная российская государственная информационная система резервных копий к которых нет. И не появится если за это не будет последствий, а их похоже что нет.

И, конечно, данные по судебным делам - это самое что ни на есть общественное достояние, общественно значимые данные которые безусловно и безальтернативно должны были бы быть открытыми. Вместо того чтобы отреагировать на парсеры данных выкладкой датасетов для массовой выгрузки, сотрудники Суддепа много лет развлекались встраиванием каптчи на страницах сайта. А то есть на "вредительство" у них время и ресурсы были, а на создание архивных копий нет?

Ссылки:
[1] https://t.me/expertgd/12660
[2] https://t.me/tochno_st/518

#opendata #closeddata #theyfailed #russia
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.

Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.

В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.

Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.

Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.

#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Forwarded from Dateno
Global stats just got a major upgrade at Dateno!

We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.

📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.

And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → dateno@dateno.io

🔍 Try it now: https://dateno.io

#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
В продолжение поста про статистику в Dateno. Это, в принципе, очень большое изменение в том как мы наполняем поисковик. Если раньше приоритет был на индексирование внешних ресурсов и поиск только по метаданным, то сейчас появилось как минимум 2 источника - это статистика Всемирного банка и Международной организации труда которая полностью загружена во внутреннее хранилище, разобрана и подготовлена и теперь можно:
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).

Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.

Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.

Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.

Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда

#opendata #dateno #search #datasets #statistics