Ivan Begtin
8.07K subscribers
1.49K photos
3 videos
99 files
4.24K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
У меня регулярно случаются разговоры вокруг темы "почему же в РФ всё ещё много открытых данных и не всё закрыли?". Говорят об этом многие как внутри страны так и за её пределами и на это есть много причин и мнений. Я озвучу то что наблюдаю своими глазами.

Далее тезисно:
1. Основная причина в том что в общем и в целом модель поведения российский властей соответствует принципу "ничего не происходит, всё идёт как было". Отчасти поэтому скрытие/закрытие данных точечное и оно скорее продолжает тенденцию последних 6-10 лет. Это подтверждается тем что в первую очередь власти закрывали данные про которые знали на 100% что они используются зарубежными аналитиками, в первую очередь военными и теми кто формирует санкционные списки. Результаты работы этих аналитиков не то чтобы сильно секретны, во всяком случае не настолько чтобы нельзя было узнать что именно используется. Поэтому исчезли данные об исполнении фед. бюджета, о компаниях под санкциями и теми кто работает с подсанкционными компаниями. Неприятно, но ожидаемо.

2. В то же так устроена информатизация/цифровизация и тд. что не публиковать некоторые данные невозможно поскольку уже выстроены экосистемы, вокруг них и совсем неочевидно что их можно использовать в каких-либо военных или санкционных целях. Таких данных много, многие индикаторы ведомственной статистики, и ещё много что раскрываются, многие данные публикуются. Их сокрытие является, в большей степени, от отсутствия открытости гос-ва в повестке Пр-ва, чем в конкретных событиях вокруг прошедших/идущих/грядущих военных конфликтов.

3. При этом важно знать что всё что видно в открытом контуре на госсайтах и иных госресурсах - это менее 0.1% данных которые реально собираются. В виду российской специфики почти полной неподотчетности исполнительной власти, реальные объёмы собираемых данных измеряются петабайтами (а может больше, не буду обманывать), в то же время в виде открытых данных и в любой иной форме публиковались гигабайты данных максимум. Если отделять данные от всего остального контента (видео, аудио) создаваемое гос-вом.

4. При этом были, есть и, хочется надеяться что будут косвенные индикаторы и базы данных на которых можно подсчитать индикаторы реальной экономической ситуации, демографии и тд. в общем признаки экономической и социальной активности. Некоторые индикаторы, даже, весьма оперативные и обстоятельные. Но они существуют ровно до той поры пока не о их использовании не становится известно публично. И здесь есть особая роль журналистов.

5. Работа любого профессионального журналиста - это подготовить публикацию которая бы приводила к изменениям в обществе, повышало бы его осведомленность, приводила бы к иным значимым качественным изменениям. Сейчас когда журналисты используют те или иные общедоступные данные которые отражают реальную ситуацию с экономикой или обществом в РФ это приводит к тому что на эти медийные триггеры срабатывают в Пр-ве, Администрации Пр-та или спецслужб и эти данные, если не немедленно, то довольно скоро исчезают.

6. Примеров таких исчезающих данных немало, тот что у меня перед глазами - это исчезновение в данных ФНС о юридических лицах сведений об учредителях НКО. Это произошло ещё в 2021 году, я неоднократно об этом писал и это, конечно, не единственный пример. Аналогично были закрыты данные о поставщиках госкорпораций по 223-ФЗ, это было ещё при Пр-ве Д. Медведева в 2018 году и ещё много всего.

7. Я не призываю журналистов не писать о чём либо, я говорю о том что реакция российский властей идёт на подтверждённое использование данных. И если какие-то данные скрыть сложно из-за их природы, то от сокрытия других куда меньше последствий. Поэтому результатом работы журналистов, а ещё точнее результатом реакции властей, является сокрытие данных. И это ещё один неприятный тренд последних лет.

(Часть 1/2)

#opendata #russia #thoughts
8. Собственно он и является той причиной почему, к примеру, я почти не пишу про какие-либо интересные данные внутри РФ и о том как они были бы полезны именно по той причине что их могут оперативно закрыть. Если уж и писать о чём-то то только если это что-то не столь ценно если исчезнет.
9. Вот, к примеру, 9 января я писал про геосервер Росреестра. Не прошло и недели как сотрудники Росреестра его скрыли. Не то чтобы неожиданная реакция, скорее, наоборот, ожидаемая.

10. Выводов у меня здесь нет, кроме того что триггерами дальнейшего закрытия данных будет их публичное использование. Пока никто не знает и знание непублично, данные будут доступны ещё долго. Как только об этом напишут хоть что-то осмысленное, данные начнут исчезать. Вот такая борьба со здравым смыслом и происходит.

(Часть 2/2)

#opendata #thoughts #russia
Кстати, про закрытые в России данные отдельная история о том что со временем, некоторые данные, воспроизводятся из других источников. Например, реальные данные по экспорту/импорту хотя российской таможней более не публикуются, но публикуются странами с которыми идёт торговля и доступны в международных базах открытых и коммерческих. Сейчас почти везде в открытых базах фигурирует статистика торговли за 2021 год, но где-то к середине 2024 года будут доступны цифры и за 2023 год и тогда в продуктах которые их используют можно будет много увидеть наглядно. Тот же Atlas of Economical complexity [1] более чем нагляден и в нём используется база COMTRADE. Правда, по России выдаёт данные только за 2020 год [2].

Но пока нет международных данных, есть возможность посмотреть на данные национальные, некоторые статслужбы публикуют их весьма оперативно и детально. Например, я недавно [не]случайно изучал статистику импорта и экспорта одной арабоязычной страны и там видно наглядно как импорт из России в 2021 году составляет $34.3 миллиона, в 2022 году $16.9 миллионов, а в 2023 году $8,6 миллионов. Там правда вполне очевидные последствия санкций на российских сталелитейщиков и угледобытчиков, тем не менее, за 2022-2023 годы изменения в структуре торговых балансов стран и изменения путей и объёмов поставок весьма существенные и есть источники данных на которые, например, российское Пр-во повлиять никак не может.

А это означает что можно собирать "данные о России которые находятся вне России". Впрочем есть риски что российские власти начнут (уже начали?) влиять на страны ЕАЭС для сокрытия их таможенной статистики, так что это ещё один из видов сведений требующих внимания и проактивной архивации.

Ссылки:
[1] https://atlas.cid.harvard.edu
[2] https://atlas.cid.harvard.edu/explore?country=186&queryLevel=location&product=undefined&year=2020&productClass=HS&target=Partner&partner=undefined&startYear=undefined

#russia #economy #statistics #customs #thoughts #data
Вообще я зарекся комментировать российские госинициативы последних лет, во первых потому что хороших мало, во вторых поскольку берегу своё душевное здоровье, хочется думать о хорошем (открытых данных в мире, например), а не об этом всём. Но на днях прокомментировал Forbes о том почему реестр военнообязанных в РФ не будут делать на Гостехе [1].

Комментарий там у меня получился "мягким", в жизни и здесь в канале я про Гостех пишу куда жёстче. Так вот от того что реестр военнообязанных не будут делать на Гостехе есть две стороны, плохая и хорошая.

Плохая в том что отсутствие Гостеха в этом уравнении даёт куда большую гарантию что этот реестр появится, что он будет разработан быстрее и дешевле. Гостех отнюдь не снижает стоимость и скорость разработки, то что это "волшебная платформа" ни от кого кроме его создателей и ФКУ не услышишь, да и не светят её технические характеристики по той же причине, слишком легко будет доказать обратное. Как бы то ни было, всем кто не хотел бы чтобы этот реестр появился - это плохая новость. Я, также, не фанат этого реестра, во всех смыслах он будет очередным инструментом репрессивного воздействия на общество.

Хорошая новость в том что, в очередной раз это демонстрация убогости того что Федеральное Пр-во РФ продвигает как Гостех. А я напомню что Гостех провалился в Москве, от него отказались в Казахстане и сейчас его российские власти пытаются продать в Кыргызстан и некоторые развивающиеся страны. Ну как продать, на самом деле его за деньги никто и не стал бы покупать, готов поспорить что даже если его кому-то "впарят", то это будет продажа в форме российского кредита и сам Гостех, по сути, в этих переговорах - это продажа "инструмента мягкой силы", создание зависимости у другого государства от российской цифровой инфраструктуры. Чем больше будет таких публичных историй провала Гостеха, тем меньше шансов что даже от таких "роскошных" условий внедрения Гостеха другие страны откажутся.

Да, это хорошая новость.

Я не буду в очередной раз рассказывать всё что я про эту инициативу думаю, вместо этого повторю ключевой тезис.

Гостеха не существует!

Не существует не в том смысле, что нет Platform V от Сбера на которой он построен, или что нет одноименного ФКУ которое его продвигает, или что нет каких-то мелких информационных систем которые создаются каким-то образом (технических подробностей то нет, только госмаркетинг и госпиар). Так вот Гостеха не существует в том смысле что если завтра ФКУ ликвидируют, финансирование Гостеха прикроют, кого-то из этой команды уволят, а кого-то посадят, так вот для РФ как государства и для граждан - это будет абсолютно незаметно!

Потому что ничего критически значимого зависящего от инфраструктуры и инструментов Гостеха в РФ как в государстве сейчас нет. В отличие от: Электронного бюджета, АИС Налог-3, ЕПГУ, ЕИС, многих других критичных федеральных государственных информационных систем.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/504631-vlasti-otkazalis-ot-idei-sozdania-servisa-elektronnyh-povestok-na-platforme-gosteh

#thoughts #govtech #russia
Отвлекаясь немного от тем данных глобально и локально, по поводу того что РКН активно начали штрафовать зарубежных хостеров за то что те не локализовались в России, а зарубежные хостеры, в свою очередь, массово начали отказываться от клиентов у которых есть хоть какая-то аффиляция с Россией. Пример Hetzner'а и Godaddy показательны. То есть почти все хостеры где есть хотя бы какое-то количество клиентов связанных с Россией будут от таких пользователей избавляться, и не из-за санкций и не невозможности оплаты, а потому что юристы им подобное порекомендуют, думаю что уже рекомендуют достаточно активно.

Но важно не только это. По сути это регулирование и его применение РКН на практике - это шаг к полной изоляции Рунета, возможно один из серьёзнейших. Во первых оно предполагает практически прямую цензуру поисковой выдачи, а единственная поисковая компания до которой российские власти могут сейчас дотянутся - это Яндекс, потому что можно говорить что Google здесь уже нет. Во вторых надо понимать что "зарубежные хостеры" - это практически весь интернет. То есть РКН может уже сейчас _формально законно_ заблокировать вообще всё.

Такая законность - это очень мутно-херовая штука, уж простите за резкость. И без того российскую юрисдикацию воспринимают как токсичную, а тут ещё и подобное.

Кстати, есть же часы судного дня для применения ядерного оружия. А нужны часы судного дня про отключение России от интернета. Произойти это может в любую сторону, но больше шансов что будет это изнутри.

#thoughts #russia #network #regulation #internet
Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее актуальных тем последних лет - это Digital Public Infrastructure или, по-русски, Цифровая общественная инфраструктура.

Что это такое? Аналог можно провести с дорогами. Они могут быть магистральными или городскими, бесплатными или платными, но они создаются, за редким исключением, как общественная инфраструктура и ограничения по их использования не дискриминационны, а функциональны (по каким-то можно ездить большегрузам, а по каким-то нельзя).

Цифровая общественная инфраструктура - это что-то вроде сети дорог или иных общественных служб. Она состоит из сервисов которые обеспечиваются государством в широком смысле для решения общественных задач.

Например:
- государственная система идентификации, примерно как авторизация через Google или Facebook, как аналогии из коммерческого мира
- государственная система платежей
- государственная система обмена персональными данными (secure data exchange)

И в этот список ещё можно добавлять некоторое число других услуг и компонентов которые выходят за пределы использования только органами власти.

Знаете что самое интересное? Спикеры по этой теме в качестве примера приводят Россию. В их трактовке, вполне логично, НСПК (карты Мир и Система быстрых платежей) - это как раз часть Digital Public Infrastructure. А то что Россия, своевременно или с запозданием, подобное делает - это как раз очень правильно и логично, чтобы не зависеть от частных/глобальных подрядчиков и сервисов. Потому что они могут в любой момент уйти, накручивать цену или иным образом выворачивать руки.

Конечно, цифровая общественная инфраструктура - это куда более глубокая концепция включающая понятия подотчетности, прозрачности, интероперабельности, инклюзивности и ещё много чего, в первую очередь, общественного надзора. Также надо понимать что это скорее социалистическая/патерналистическая модель, которая идеологически ближе к РФ, если не делать оговорку на коррупцию и "сливания тем" приближённым олигополиям.

Лично я пока во многих странах виду движение в сторону DPI и даже предполагаю что рано или поздно это может стать одной из зонтичных концепций продвигаемых одной из междгосударственных структур.

#thoughts #digital #infrastructure
Я давно не кидался окаменелостями в адрес российского Гостеха, и тут, уж извините, дам ссылку на выступление Мишустина на Digital Astana 2024 [1]. Как всегда, важно не то что он говорил, а то что _не говорил_. Ни разу не упомянул Гостех, ограничившись разговорами про Госуслуги и российские цифровые платформы. А почему он его не упомянул?

А потому что:
1. Значительная часть государственных информационных систем в Средней Азии делаются за счёт международной поддержки: USAID, скандинавские страны, Германия и др., разного рода глобальные институты развития. Рассчитывать что их будут интегрировать с российскими ИТ разработками или что там будет сотрудничество не стоит. Но это не самое главное.
2. Власти Казахстана уже "отбились" от попыток впаривания им Гостеха, ловко соскочив после того как Сбер попал под санкции. Я бы оценивал шансы на возвращение как минимальные.
3. Российские технологические решения которые пушит Пр-во в другие страны будут восприниматься как инструменты российской "мягкой силы" и влияния, поэтому у их внедренцев неслабые такие шансы влететь на санкции.
4. Гостеха не существует! [2]

В общем-то это показательно что даже главный продвигатель Гостеха теперь этот бренд не продвигает, но внутренней аудитории его продолжают скармливать, в основном потому что у нее выбора меньше.

Ссылки:
[1] https://t.me/government_rus/11105
[2] https://t.me/begtin/5370

#government #govtech #russia #thoughts
Сегодня, любопытства ради, я посмотрел трансляцию Минцифры РФ со "Дня госуслуг".

Всё думал как это прокомментировать, сформулирую мысли тезисами:
1. Госуслуги в России действительно существуют, в отличие от Гостеха, там есть реальное нечто о чём создатели могут рассказать и что могут показать. Показали они не так много как могли, рассказали что-то кому-то общеизвестное, кому-то новое, но главное - живое. Поэтому в качестве комплимента можно сказать что их пиар достаточно правдив, хотя и неуклюж, но неуклюж достаточно естественно.

2. Конечно, правильно было бы назвать не "День Госуслуг", а день Ростелекома. По сути большая часть происходящего и большинство выступавших именно оттуда, из РТК Лабс. Но это просто констатация факта, от этого не горячо, не холодно.

3. Ключевой вопрос, важный всегда и везде, а на кой .. зачем всё это мероприятие проводилось? Вопрос немаловажен тем что в отличие от того же Гостеха, Госуслуги не надо продавать. Госуслуги - это монопольный государственный продукт работа с которым для госорганов - это не опция, а уже скорее обязательство и функция. "Продавать его" госслужащим, федеральным или региональным смысла нет. Как и нет смысла "продавать его" аудитории форума Россия. В принципе нет никакого смысла его продавать, кроме как если надо рассказывать о достижениях РФ в ИТ и уже понятно что с Гостехом так знатно облажались что надо говорить о чём-либо реальном.

4. Почему выглядит странно? Потому что, по хорошему, у российских Госуслуг могут быть три канала коммуникации:
4.1. Руководство - это когда надо "продать идею" чтобы влить в них ещё больше денег. Но это, как бы, давно уже не проблема. Скорее проблемой было какое-то время то что часть сервисов внутри Госуслуг планировали (планируют ли ещё?) передать в Гостех. Но не передали, что показательно
4.2. Разработчики, но для этого надо превращать Госуслуги в экосистему и открывать код/API, документацию и тд. Эту "поляну" Пр-во уже слило в Гостех, где идея госэкосистемы благополучно-неблагополучно приобретает свою доменную смерть.
4.3. Потенциальные покупатели из других стран. Поскольку уже понятно что даже на постсоветском пространстве Гостех никто не купит, потому что этот "кот в мешке" ещё даже не родился и уж тем более ничего показать нельзя. А вот Госуслуги живые. Но что-то не было похоже что аудитория именно этого форума была хоть как-то приближена к такой продаже.

5. О последнем подробнее. Да, Госуслуги в РФ - это гораздо более живой проект чем многие другие и выступавшие на форуме в целом, общем и в частностях не врали. Но кое-что осталось за кадром (не договаривали), а это стоимость. И стоимость там огромна поскольку она включала ещё и стоимость внедрения, интеграции, доработки многих информационных систем и ещё много чего. В общем это дохрена, не каждая развитая страна может позволить себе такие расходы. Я лично с трудом могу поверить что какая-либо из стран являющаяся российским торговым партнером или, хотя бы, не вводившая санкции начнёт вот так просто такой продукт внедрять.

6. Более проглядывается сценарий что, либо внедрение будет как политическое решение и на российские же деньги в виде огромного кредита, либо в формате какой-либо большой сделки обмена "условные снаряды на Госуслуги" с одной из сильно подсанкционных стран. Но опять же, я в обозримом будущем не вижу чтобы это произошло каким-либо естественным образом. Только политика и ничего кроме политики.

Часть 1 из 2

#thoughts #government #russia
7. При этом что российские госуслуги, что лучшие мировые примеры вроде Эстонии или Сингапура или госуслуги Казахстана через КаспиБанк, увы, не являются отчуждаемыми продуктами. Даже частично, даже в какой-то разумной доле снижающей стоимость внедрения. Во многих других областях решения есть: порталы данных, официальная статистика, гражданские бюджеты, порталы открытой демократии и открытого диалога и ещё много чего, но не для госуслуг. Да чего уж там, даже для национальных цифровых идентификационных платформ нет универсальных решений. Слишком большая вариативность уже созданного и необходимого для интеграции и местных законов, местной цифровой готовности и тд.

8. Поэтому пиар российских Госуслуг - это странно, очень странно. Может ещё одно предположение что всё это было к кадровым перестановкам в Пр-ве? Но, что-то вот верится с трудом. Пока всё идет к тому что ничего не поменяется (с)

9. Хорошо бы он выглядел если бы на сцену вышел бы какой-нибудь российский вице-премьер и так бы и сказал: "Друзья, мы тут с Гостехом облажались и решили его закрыть. А вот Госуслуги это супер, Госуслуги это зашибись. Теперь будем на их основе госпроекты развивать". Шучу, наверное;) Это на меня так сюрреализм происходящего влияет.

Часть 2 из 2

#thoughts #government #russia
Я давно не напоминал что, помимо всего прочего, я веду реестр каталогов данных по всему миру, Common Data Index [1] и там уже почти 10 тысяч записей, большая часть которых - это геопорталы/каталоги геоданных. Но также много порталов открытых данных, микроданных, научных данных, каталогов индикаторов и каталогов данных для машинного обучения. Список пополняется постоянно, но работы ещё много.

В последнее время всё больше новых каталогов данных из систем национальной статистики и национальных банков стран, о них много что можно рассказать. А пока поделюсь некоторыми накопленными наблюдениями тезисами


1. Очень малое пересечение современной дата инженерии, дата анализа и data science с порталами открытых данных и вообще почти всеми системами раскрытия информации госорганами. Публикация данных в Parquet большая редкость, в лучшем случае доступны данные в форматах SPSS или Stata, а чаще просто CSV/XLS. Официальная статистика, в принципе, феноменально консервативна. Не так много статслужб публикующих данные на постоянной основе как открытые данные, но почти все так или иначе данные публикуют.

2. Наибольший прогресс и потенциал развития в открытости научных данных. Там есть хорошие обоснования, институциональная поддержка, системная работа, обоснованная аргументация, государственные программы и многое другое ориентированное на открытость. Но нет рынка. Нет областей применения себя любому амбициозному человеку поскольку всё построено на коллаборации и согласованности совместной глобальной работы. Поэтому (но не только поэтому) в этой области почти нет стартапов и активного бизнес присутствия.

3. Государства практически не создают каталогов данных для развития ИИ. Два концентратора данных и моделей - Kaggle и HuggingFace используются всеми, частными, корпоративными и государственными исследователями. Только в некоторых странах такие наборы данных публикуются на официальных порталах открытых данных.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #data #thoughts