Ivan Begtin
9.37K subscribers
2.16K photos
4 videos
104 files
4.89K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending
Кстати, я вот всё никак не соберусь написать про эксперименты с Яндекс.Нейроэксперт [1]. Вначале хотел написать весьма критично, потому что недостатков много:
- нет открытого API, невозможно автоматически подключиться
- загрузка файлов непрозрачна, ты как бы отправляешь файл и ждёшь непонимания в какой стадии файл находится
- ограничение в 25 файлов маловато

Но, потом, сравнивая с ChatGPT и Perplexity где тоже можно создавать пространства с документами, моё мнение несколько переменилось.

У Нейроэксперта выявилось две очень важные характеристики.
1. Он умеет прожёвывать файлы сканов условно большого размера. Дореволюционные книжки без текстового слоя, со старой орфографией. Грузил туда файлы по 80-100МБ и, хоть и неудобно, но несколько загрузить удалось.
2. По текстам этих книжек он умеет строить временные ряды. Так по книгам старых статистических справочников он по наводящим вопросам выдал временные ряды в виде CSV файла по нескольким таблицам

Для сравнения ChatGPT не смог распознать такие сканы, а Perplexity не поддерживает загрузку файлов более 25МБ (по числу файлов там ограничений нет).

Если команда Нейроэксперта его "детские болезни" полечит он станет бесценным инструментом для работы с историческими документами. Примеры пока не привожу, это тема отдельного поста.

Ссылки:
[1] https://expert.ya.ru/expert

#ai #aitools #digitalhumanities
У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets
TerraMind, свежая генеративная модель по данным наблюдения за Землёй от IBM и ESA [1] также доступная на Hugging Face [2] и статья на Arxive.org [3]

Всё под лицензией Apache 2.0, общий объём разных версий модели более 10 ГБ.

Авторы пишут что она превосходит аналогичные foundation models на 8%

Ссылки:
[1] https://research.ibm.com/blog/terramind-esa-earth-observation-model
[2] https://huggingface.co/ibm-esa-geospatial
[3] https://arxiv.org/abs/2504.11171

#geodata #opendata #ibm #ai #aimodels
Прекрасный текст I use Zip Bombs to Protect my Server [1] в котором автор рассказывает как он отбивается от ботов сканирующих его веб сайт через подсовывание им ZIP файла в 1MB который разворачивается в 1GB и это помогает "убить" большую часть ботов. Самым упоротым ботам он подсовывает уже 10MB ZIP файл и после этого не выживает уже ни один бот.

Конечно, это, в основном для ботов которые автоматически распаковывают ZIP файлы, например разные сканеры безопасности.

Эта техника называется ZIP бомбинг [2], я помню её ещё по студенческим временам, тогда её применяли не против ботов, как-нибудь ещё.

А сейчас дело это увлекательное, но способное и вред нанести. Признают ли ZIP бомбинг цифровым экстремизмом когда-нибудь?:)

Ссылки:
[1] https://idiallo.com/blog/zipbomb-protection
[2] https://en.wikipedia.org/wiki/Zip_bomb

#zip #funny
В рубрике полезных ссылок про данные, технологии и не только:
- Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран [1] статья на хабре от команды Яндекса про геокодирование. Достаточно сложно чтобы не поверхностно, недостаточно сложно чтобы было нечитабельно. Полезно для всех кто анализирует адреса.
- Data Commons: The Missing Infrastructure for Public Interest Artificial Intelligence [2] статья Stefaan Verhulst и группы исследователей про необходимость создания Data Commons, общей инфраструктуры данных и организуемого ими конкурса на эту тему. Интересна и предыдущая статья [3].
- AI is getting “creepy good” at geo-guessing [4] о том насколько облачные AI модели стали пугающе хороши в идентификации мест по фотографии в блоге MalwareBytes
- Redis is now available under the AGPLv3 open source license [5] да, СУБД Redis с 8 версии снова AGPL. Больше открытого кода и свободных лицензий
- Hyperparam Open-Source [6] Hyperparam это инструмент визуализации больших датасетов для машинного обучения. Теперь выпустили с открытым кодом компонент HighTable [7] для отображения больших таблиц. Лицензия MIT
- AI Action Plan Database [8] база данных и более чем 4700 предложений по плану действий в отношении ИИ, инициативе Президента Трампа в США, к которой многие компании прислали свои предложения. Хорошо систематизировано (с помощью ИИ) и доступен CSV датасет.

Ссылки:
[1] https://habr.com/ru/companies/yandex/articles/877086/
[2] https://www.linkedin.com/pulse/data-commons-missing-infrastructure-public-interest-verhulst-phd-k8eec/
[3] https://medium.com/data-policy/data-commons-under-threat-by-or-the-solution-for-a-generative-ai-era-rethinking-9193e35f85e6
[4] https://www.malwarebytes.com/blog/news/2025/04/ai-is-getting-creepy-good-at-geo-guessing
[5] https://redis.io/blog/agplv3/
[6] https://hyperparam.app/about/opensource
[7] https://github.com/hyparam/hightable
[8] https://www.aiactionplan.org/

#opendata #datatools #opensource #datapolicy #ai
В рубрике как это устроено у них EarthBank [1] платформа для удобной визуализации, анализа и извлечения геопривязанных данных, полученных геохимическими лабораториями по всему миру.

Вернее, конечно по всему миру, но только с теми данными что есть в австралийских музеях и лабораториях. Это более 96 тысяч образцов собранных в 61 пакет с данными. Конечно, большая часть данных по Австралии, но есть примеры и из других стран, например, на скриншоте образцы из Адыгеи которые собраны в 2015 году и хранятся в Музее минералогии штата Виктория.

Проект создан в AuScope Geochemistry Network (AGN) на базе движка австралийского стартапа Lithodat по визуализации геохимических данных.

У проект открытое API, возможность выгрузить все наборы данных, но требуется авторизация для доступа.

Ссылки:
[1] https://ausgeochem.auscope.org.au

#opendata #geodata #geochemistry #mineralogy
В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.

Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.

Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.

У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.

Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/

#opendata #statistics
Я как и многие прочитал про свежий список разрешённых игрушек в детских садах [1].

Подробной информации нет, а из уст министра Кравцова это звучало вот так
... Поэтому нам нужен перечень тех игрушек, которые будут поставляться в детские сады: для каждого определенного возраста - свой. К сожалению, в магазинах на полках мы до сих пор видим множество игрушек, которые формируют ценности, чуждые российским". ...

Поначалу я планировал прокомментировать это всё с долей иронии, но понял что хоть и ирония тут имеет право на существование, но сама тема очень серьёзная. Потому что реестры, списки и перечни вот уже много лет как стали одним из основных инструментов государственного управления. Я, для простоты, буду далее это называть реестровой системой управления.

Что такое реестр ? Это, как правило, белый или чёрный список организаций или людей или иных связанных с ними объектов (продуктов, товаров, произведений и тд.) с которыми связаны ограничения на доступ к определенному роду деятельности через разрешение только для включённых в этот список (белый список) или исключение включённых в него (чёрный список).

Например, реестр нежелательных организаций или реестры иноагентов или реестры недобросовестных поставщиков - это чёрные списки. А реестры отечественного ПО или реестр ИТ компаний - это белые списки. Черные списки создаются по принципу того чтобы сделать очень плохо ограниченному числу организаций или граждан, а белые списки про то чтобы сделать лучше большему числу участников и плохо всем остальным.

Что лучше, что хуже я сейчас оценивать не буду, это всё зависит от области применения. Важно помнить что это одна из форм кодификация ограничений. При этом, безусловно, реестры обладают высокой степенью коррупционноёмкости (случайно такое сложное слово вырвалось). Включение в или исключение из реестра может лишить включаемого доступа к рынку, ресурсу, возможности заниматься профессиональной деятельностью и тд.

Например, контекст вокруг списка игрушек таков что единственная модель его практического применения - это ограничения в государственном и муниципальном заказе. Но для этого надо, или провести это в федеральном законе, или навязать только для детских садов ремонтируемых за счёт федерального бюджета через требования в текстах субсидий выдаваемых Минпросвещения, или на региональном уровне решениями региональных правительств. Потому что детские сады, почти все, находятся в муниципальном ведении или, реже, в ведении субъектов федерации.

Поэтому как этот список появится, сколь скоро и насколько он будет обязательным - надо ещё последить. Важнее другое, этот реестр является абсолютно логичной моделью регулирования в рамках российской системы госуправления основанной на контроле и патернализме. Контроль - это реестр, патернализм - в том что федеральные чиновники считают что никому кроме них нельзя доверить столь ответственное дело как выбор игрушек для детей. Я об этом ранее писал в контексте ИТ рынка, но это универсальная парадигма.

Каждый такой реестр и список - это ещё один шаг в копилку тех кто хотел бы "чтобы страна жила построже". И если такой список игрушек появится и будет кодифицирован - это ровно такой пример.

Ссылки:
[1] https://rg.ru/2025/03/04/minprosveshcheniia-utverdit-perechen-igrushek-dlia-detskih-sadov.html

#government #russia #data
Подборка регулярных ссылок про данные, технологии и не только:
- Smithy opensource генератор кода и документации для сервисов с собственным языком их описания, от команды Amazon AWS. Казалось бы зачем если есть OpenAPI/Swagger, но поддерживает множество стандартов сериализации и транспорта

- Unlock8 кампания по продвижению идеи того что навыки программирования и работы с ИИ должны быть обязательными для всех школьников в США. В подписантах сотни CEO крупнейших ИТ компаний. Тотальное обучение программированию может быть чуть-ли не единственным объективным решением после массового проникновения AI в школы. Лично я поддерживаю эту идею, но не в США конкретно, а применительно ко всем странам.

- SmolDocling особенно компактная модель распознавания образов для преобразования документов. Доступна на HuggingFace. Пишут что очень хороша, но в работе её ещё не видел. Надо смотреть и пробовать.

- NIH blocks researchers in China, Russia and other countries from multiple databases администрация Трампа с 4 апреля ограничили доступ исследователей из Китая, Ирана, России, Кубы, Венесуэлы, Гонконга и Макау ко множеству научных репозиториев данных связанных со здравоохранением. Это так называемые controlled-access data repositories (CADRs), репозитории доступ к которым предоставляется по запросу.

- A First Look at ODIN 2024/25: A Decade of Progress with New Risks Ahead обзор доступности и открытости данных по статистике по практически всем странам. Краткие выводы: открытости в целом больше, больше данных доступно, больше свободных лицензий и машиночитаемости. Я лично не со всеми их оценками могу согласится, но это объективно важный монитор общей доступности статистики в мире. Можно посмотреть, например, изменения в доступности данных по РФ за 2020-2024 годы. Кстати, если посмотреть подобно на индикаторы, то видно что оценщики не смотрели на системы типа ЕМИСС, а оценивали только по доступности данных на официальных сайта Росстата и ЦБ РФ. О чём это говорит? Нет, не о их невнимательности, а о том что сайт Росстата устарел морально и технически.

#opensource #opendata #ai #sanctions
Накопилось разное про разное про задачи и работы:
1. Нам в Dateno нужен ещё один дата инженер, полная загрузка, дистанционно. Задачи интересные, не супер сложные, но сложные. Нужно извлекать метаданные и данные из сотен и тысяч источников и по определенным правилам складывать их в базы данных. Что такое Dateno я регулярно пишу здесь - это один из крупнейших поисковиков по датасетам в мире, второй по масштабам после Google Dataset Search. Dateno международный проект, человек может быть в условно любой стране, но желательно в часовых поясах между 0 и +4 к GMT.

2. В Инфокультуре в РФ у нас есть задачи для тех кто может и любит писать про данные на регулярной основе. Нет, не в мой телеграм канал;) Но регулярно писать про применение данных, новых интересных датасетах. Как такой человек называется контент менеджер или SMM специалист? Я вот плохо это понимаю, но есть телеграм каналы и сайты которые надо вести. Если Вы такой человек, пришлите резюме на infoculture@infoculture.ru. Вопросы можно мне в личку задавать.

3. В Open Data Armenia Есть задача которую не удалось решить за несколько попыток с помощью кодирующего ИИ - это выгрузить из статбанка Армении данные индикаторов https://statbank.armstat.am на всех доступных языках, все значения. Особенность в том что статбанк работает на базе ПО PxWeb используемое статслужбами в скандинавских странах, но инсталляция там очень старая и без открытого API. Когда говоришь LLM создать скрейпер для этого сайта, то он пытается сгенерировать код которые стучится в код API PxWeb. Поэтому есть задача для фрилансера написать скрейпер кода заставить какую-нибудь LLM такой работающий код сгенерировать. Задача для волонтера или фрилансера. Если хотите за деньги её сделать, напишите что мол "возьмусь, стоит столько то", если по цене договоримся, то можно приступать. А если как волонтер, то сразу присылайте ссылку на код на Github'е

#jobs #vacancy #data #tasks
Кстати, в качестве напоминания, не забудьте забрать свои данные из Skype. С мая он более не поддерживается, а забрать личные данные можно по инструкции https://go.skype.com/export.chat.history

Для многих это целая жизнь которая может пропасть если забыть сохранить чаты, файлы и контакты.

#digitalpreservation
В блоге Meta подробный пост на мою любимую тему про понимание данных How Meta understands data at scale [1] про задачи с масштабами которые бывают только в очень крупных компаниях про анализ и управление схемами данных, в их случае это более 100 миллионов схем из более чем 100 систем с данными. Можно обратить внимание что эта работа по пониманию данных у них идёт через так называемую Privacy Aware Infrastructure (PAI). То есть это не столько для удобства разработчиков, хотя и это там присутствует, но, в первую очередь, для контроля распространения и использования собираемых и рассчитываемых персональных данных.

Для чего всё сведено в единый каталог схем OneCatalog который за пределами мета нигде кроме как в их публикациях не фигурирует. Штука уникальная, довольно редкая. С протоколом Thrift внутри и семантическими типами данных которыми аннотируются колонки данных схем протокола.

Ссылки:
[1] https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/

#dataengineering #data
В рубрике как это устроено у них портал муниципальных данных стран ОЭСР (Local Dat Portal) [1] предоставляет детальную статистику по более чем 100 индикаторам и по всем странам входящим в ОЭСР. Портал появился в ноябре 2024 года и сделан на базе ProtoMap с динамической подгрузкой слоёв.

Ему предшествовал атлас ОЭСР по регионам и городам [2], не столь визуально приятный, но тоже полезный в своё время.

Данные доступны через раздел Regional, rural and urban development [3] на сайте статпортала ОЭСР и на самом сайте ОЭСР [4]

Ссылки:
[1] https://localdataportal.oecd.org
[2] https://www.oecd.org/en/data/tools/oecd-regions-and-cities-atlas.html
[3] https://data-explorer.oecd.org/?fs[0]=Topic%2C0%7CRegional%252C%20rural%20and%20urban%20development%23GEO%23&pg=0&fc=Topic&bp=true&snb=153
[4] https://www.oecd.org/en/data/datasets.html?orderBy=mostRelevant&page=0&facetTags=oecd-policy-areas%3Apa17

#opendata #statistics #geodata #oecd
По поводу свежей статьи в Forbes Russia про передачу данных сотовыми операторами в ФСБ и МВД [1] я многое что могу сказать, но самое главное, действительно самое главное, в том что всё что касается разрешений правоохранителям и спецслужбам по доступу к данным - это вопрос _легализации_ это практики, а не появление её из ниоткуда.

В реальности, легальное право для спецслужб по получению данных необходимо для того чтобы использовать эти данные в случаях обвинительных заключений, в случаях когда дело может дойти до суда или в рамках досудебного рассмотрения. Но, в любом случае, это про легализацию дальнейших действий в отношении гражданина.

По умолчанию же всегда следует считать что у спецслужб есть доступ к базам всех организаций имеющих данные реального времени по движению граждан и не только. В любой стране. В отношении любой организации. Даже если, на самом деле, такого доступа нет, надо считать что он есть. Потому что если его нет, значит спецслужбы плохо работают. А мы ведь не верим в том что они плохо работают? Вот то-то и оно, не верим. А значит доступ есть.

Пишу почти без иронии.

А ещё не могу не добавить что рано или поздно придут и за разработчиками приложений для Apple/Android, если ещё не пришли (не ко всем пришли точно). Потому что если приложение пишет и сохраняет трек передвижения пользователя и другие его действия, то оно очень даже представляет интерес для тех у кого нет доступ к данным сотового оператора.


Ссылки:
[1] https://www.forbes.ru/tekhnologii/536706-dannye-na-sdacu-kakuu-informaciu-ob-abonentah-operatory-peredadut-policii-napramuu

#privacy #security #russia
Накопилось какое-то количество размышлений тезисами о том как файлы/документы публикуются и что с этим не так

[Не] Структурированный мир.

Огромная часть задач связанных с машинным обучением, LLM и тд. вокруг извлечения текстов и преобразования PDF документов. Чаще всего эти документы из областей жизни где они являлись нормой совсем недавно - научные статьи, патенты, гос. документы. Реже архивы. Но PDF файлы - это пример доминанты представления над содержанием. Когда в ущерб возможности работы с текстом и иным содержанием автоматизировано акцент сделан на точности визуального представления. А сейчас огромные технические ресурсы будут тратится (уже тратятся) на преобразование всего этого в машиночитаемый вид. Прорывов много, например, распознавание документов с помощью GPU чипов всё лучше, но не менее важно "заставить этот горшочек перестать варить".

Научные статьи не должны публиковаться в PDF, в PDF не должны публиковать информацию о патентах, однозначно в PDF не должна публиковаться статистика и так далее. Таких областей немало. Всё это должны заменить расширяемые, но строго специфицированные форматы предусматривающие машинную обработку. В научном мире постепенно приходят к формату data papers и в обязательные требования по публикации данных вместе со статьями. В мире статистики всё достаточно давно развивается в сторону SDMX, JSON Stat и ряда других стандартов.

Моё предсказание в том что мир гораздо быстрее побежит по направлению стандартизации представления много чего что сейчас собирается и публикуется в для чтения людьми, а не автоматизированными агентами. Появится ли когда-то глобальный реестр подобных рекомендуемых структур/схем/форматов?

Очень бы хотелось потому что это всё более актуальная задача. Про такие локальные инициативы я ранее писал, например, schema.data.gouv.fr для официальных данных во Франции и редко обновляющийся Schema.org заточенный под поиск Google.

#dataunderstanding #data
Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.

Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem

#opensource #datadocumentation #datapolicy #plainlanguage
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.

Опишу тезисно и сжато по результатам беглого прочтения.

Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта

Нейтральное
-
создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.


Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.

Ссылки:
[1] http://government.ru/news/54972/

#opendata #closeddata #russia #statistics