Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.

Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.

Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.

В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.

Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.

Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.

Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.

P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.

#thoughts #russia #privacy
Сегодня буквально на полчаса была доступна новая версия портала data.gov.ru, но очень быстро снова оказалось закрытой для проведения аттестационных мероприятий.

Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.

Когда портал "оживёт" я подробно разберу его в рассылке на Substack.

Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.

А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.

Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.

#opendata #data #russia #datacatalogs
Андрей Анненков на D-Russia хорошо пишет [1] про ФГИС для удовлетворения... культурно-языковых потребностей. Почитайте, там много разумного и всё по делу. Лично я стараюсь всё меньше комментировать российскую внутреннюю автоматизацию без контекста того что происходит в других странах.

Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетами на портале data.gov.ru, на сайте правительства, да где угодно и через Фонд Президентских грантов раздать гранты для исследователей.
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.

Даже не знаю что добавить, выводы можно сделать самостоятельно.

Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://t.me/begtin/4157
[3] https://ruscorpora.ru

#opendata #russia #spending #language #russianlanguage
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.

В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.

Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.

Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru

#opendata #culture #russia #closeddata
zVRUz9MdbAr8FC4MOPDfsh07UgKAr8A6.pdf
571.5 KB
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.

Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.

Ссылки:
[1] http://government.ru/news/54008/

#opendata #regulation #russia #statistics
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.

Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных

В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;

второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе


Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.

Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.

Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.

Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.

2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире


Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.

В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.

Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.

Чуть позже я продолжу разбирать этот документ и напишу про остальное.

#statistics #regulation #russia
Для тех кто хочет поработать с относительно небольшими открытыми данными в области культуры по ссылке доступен слепок Госкаталога музейного фонда РФ в формате Parquet (3GB) преобразованный из слепка датасета в 78GB с портала данных Минкультуры.

Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.

Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;

Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

#opendata #russia #parquet #duckdb
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025

01.03.2024, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.

Мероприятие пройдет в онлайн формате.

Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов.
Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.

#opendata #russia #events
В продолжение предыдущей публикации про API веб архива, приведу в пример текущее состояние архивации веб-сайтов российских ФОИВов Интернет Архивом (web.archive.org).

Это результаты самой поверхностной проверки, но можно увидеть что как минимум веб-сайты Минсельхоза РФ и Фельдъегерской службы не архивируются уже почти 3 года, а ряд других 9 месяцев. Если сайт Фельдъегерской службы никого не волнует, по большому счёту, то сайт Минсельхоза уже важнее. И это только поверхностная проверка потому что для ряда сайтов веб архив блокируется с возвращением 403 ошибки. Например, сайт Росархива тоже попадёт в этот список потому что веб архив сохранял его именно с ошибками.

Рано или поздно мы снова начнём архивационную кампанию по сохранению сайтов российских госорганов в рамках Национального цифрового архива (ruarxive.org). Это стало сильно сложнее поскольку теперь официальный контент часто просто невозможно индексировать, приходится прикладывать дополнительные усилия. Но хотя бы можно сохранить то что точно не попадает в веб-архив Интернет Архива.

P.S. Кроме сайтов ФОИВ аналогичная ситуация с большей частью сайтов региональных органов власти и государственных информационных систем.

#digitalpreservation #webarchives #ruarxive #russia
В рубрике российской специфики публикации открытых данных я уже немало ранее писал о том что российские практики публикации открытых данных весьма специфичны (с) и значительно отличаются от лучших мировых практик. Например, при публикации датасетов практически не используется спецификация по стандарту schema.org, не используется типовое ПО для публикации датасетов, не используются стандарты такие как DCAT, бывает что и датасеты доступны только после авторизации на Госуслугах.
А вот ещё одна необычная практика, датасеты системы Государственного водного реестра публикуются в виде ZIP файла с цифровой подписью [1]. Я такого ранее не встречал, впервые вижу подобную практику и, честно говоря, не то чтобы осуждаю, но считаю довольно бессмысленной.

Да и сами данные публикуются в этой системе без страниц карточек датасетов, в результате невозможно сослаться на конкретный набор данных, только на страницу всех наборов.

Что тут скажешь, хорошо что хоть что-то публикуют и обновляют данные. Даже если и не особенно любят людей.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata

#opendata #russia #water #data
Я не пропустил совсем новость о том что Пр-во России анонсировало национальный проект "Экономика данных и цифровая трансформация государства" на который предполагается что потратят более 1 триллиона рублей до 2030 года [1], но долго думал как прокомментировать.

Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.

Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.

И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.

Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".

Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.

Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.

Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.

Ссылки:
[1] https://tinyurl.com/data-economy-2025

#data #russia #regulation