Ivan Begtin
8.06K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для тех кто ищет данные по РФ, маленький лайфхак, у портала data.gov.ru отключили вебморду, но все ссылки на файлы прямые остались. Это очень легко находится в гугле по запросу. Вот только уже не открывается в браузере потому что сертификат просрочен 25 марта. То есть, не только обновления сайта нет, но и даже анонс его превратился в тыкву.

А то есть чтобы не преследовали те кто решили его закрыть, сделали это тоже через одно место.

Тем временем напомню что остаётся общественный портал hubofdata.ru где можно находить и размещать свои датасеты. Мы только закрыли регистрацию из-за резкого наплыва спамеров, но если захотите опубликовать данные, то пишите, заведем аккаунт и со спамерами разберемся через какое-то время.

А из необычных данных, вот вам свежий датасет в виде базы всех отозванных сертификатов российских УЦ. Это 1.9 миллиона записей из более чем 500 CRL файлов. Может быть полезно тем кто изучает эту тему и причины отзывы сертификатов.

#opendata #datasets #data #russia
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.

Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.

Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020

#russia #closeddata #data #opendata #census #rosstat
Статистика по миграционной политики пропала с сайта МВД РФ, об этом пишет RTVI [1] и приводит скриншоты того как эта статистика ранее выглядела, до апреля 2024 года. Сейчас сведения доступны в минимальном объёме, без индикаторов и любых исторических данных [2].

От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.

1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.

Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.

Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] https://t.me/begtin/168

#opendata #russia #closeddata #crime #migration #mvdrf
В рубрике малоизвестных российских каталогов данных Федеральный центр навигационных данных [1] Роскосмоса, включает данные мониторинга за спутниковыми навигационными группировками, ионосферных карт, суточных измерений ГЛОНАСС и многое другое. Все данные являются общедоступными, их можно скачать бесплатно, но не открытыми, для доступа надо зарегистрироваться и отсутствует какая-либо информация о юридическом статусе этих данных, ни условия, ни лицензии не присутствуют.

В то же время данных много, данные настоящие и регулярно обновляются

Ссылки:
[1] https://fcnd.ru/datasearch/collections/

#opendata #data #russia #satellites
На фоне закрытия доступа к поиску по данным судебных решений я не могу не повториться о том как сейчас устроены открытые данные в России.

1. Их всё ещё много, не всё машиночитаемо, но многое пригодно к сбору.
2. Они всё ещё активно используются в самых разных проектах, в том числе в деловом обороте.
3. Основная причина закрытие - это расследования и публикации на их основе.

Фактически данные начинают закрывать когда какие-либо активисты начинают на их основе создавать хоть как-то заметные медийные продукты. Чем больше вокруг них шума, тем больше вероятность что данные прикроют.

Поэтому, из того что я наблюдаю, многие предприниматели кто создавал продукт на данных начинают не немножечко ненавидеть тех расследователей из-за которых потом эти данные закрываются. Теперь успех журналистского материала на данных из РФ оборачивается проблемами для всех не журналистов пользователей этих данных.

Но непубличных медиа материалов не бывает, поэтому этот процесс не закончится. Лично я не готов кого-либо осуждать, я подсказываю многим журналистам ответ на вопрос "почему исчезли эти данные?" потому что Вы о них написали, вот почему! Это не значит что не надо писать, это значит что стоит понимать природу этого явления.

Лично я уже упоминал что практически перестал писать о разного рода интересных датасетах внутри РФ не по той причине что писать не о чем, а по той причине что эти данные закроют. И архив любых датасетов надо делать не после того как начали закрывать, а до и тихо.

К сожалению, не только в этом году, но и в ближайшие годы эта ситуация не поменяется.

Что, безусловно, очень печалит, но непонятно как это можно поменять. Поэтому делать проекты на открытых данных, по прежнему, можно, а вот делать их публично и шумно уже нельзя, не потеряв источники данных.

#opendata #thoughts #data #russia
Один из крупнейших каталогов геоданных в России - это ФГИС Территориального планирования (ФГИС ТП) [1] управляемое Минэкономразвития РФ. Значительная часть этих данных - это геоданные в форматах XML, GML и других, но их нельзя скачать, скачивать можно только данные в растровой форме - PDF, TIF, JPG, PNG

Хотя именно открытые геоданные составляют большую часть открытых данных в развитых странах, но это не про РФ, и не про ряд стран секретящих всё что связано с их территориями.

Эти данные не закрывались в 2022 году и позже поскольку не открывались никогда.

В общей сложности там порядка 200 тысяч принятых документов из которых не менее четверти должны содержать машиночитаемые геоданные.

Ссылки:
[1] https://fgistp.economy.gov.ru

#opendata #closeddata #geodata #russia
Открытость исчезла из деятельности Правительства Нижегородской области РФ (c)

Этот заголовок можно воспринимать буквально, поскольку после обновления сайта Пр-ва Нижегородской области из него полностью исчез раздел Открытые данные . Ранее он был доступен и сейчас его можно найти на старом сайте Пр-ва [1] и ссылка не него была в разделе Деятельность старого сайта [2].

На новом сайте раздела нет и в разделе Деятельность [3] нет упоминания открытости и по словам "открытые данные" [4] ничего не найти.

Пока ещё остались только отдельные упоминания датасетов на сайтах отдельных органов власти области.

Ссылки:
[1] http://old.nobl.ru/?id=158039
[2] http://old.nobl.ru/activities
[3] https://nobl.ru/deyatelnost-pravitelstva/
[4] https://nobl.ru/search/?q=%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5+%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5

#opendata #datasets #data #closeddata #russia
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia
Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики.
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.

2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые грёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили.

3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.

Иначе говоря, ничего неожиданного.

#opendata #government #data #russia #govtech
В прошедшую субботу я потерял потратил несколько часов на просмотр выступлений зам министров Минцифры про нацпроект "Экономика данных". Хорошая новость в том что экономики там нет, плохая в том что данных тоже нет. В общем-то я лично так и не понял жанра выпихивания неподготовленных спикеров выступления зам. министров на сцене, без предварительного насильственных тренировок ораторским навыкам продумывания речей. Если это было для демонстрации открытости министерства, то лучше бы документы и данные вовремя и в полноценно публиковали. Что в итоге войдет в этот нацпроект до сих пор непонятно, но судя по интенциям впихнуть туда капиталку на сети связи, квантовые технологии и ИБ, то не пора ли переименовать нацпроект во что-то более экстравагантное? Лично у меня фантазии не хватает. Хорошо хоть Гостех не упоминали.

Параллельно с этим читаю дорожную карту комитета по Сенатского по ИИ в США. Вот это больше выглядит как нац. проект, дорожная карта там включена в отчет этого комитета. Там в дорожной карте очень много про регулирование, не только запретительное и ограничивающее, но и про участие в международных исследованиях и корректировке технологической политики.

В целом всё что я вижу по зарубежному регулированию, там это происходит со звериной серьёзностью без шоу и пиара. А сдвиг российской госполитики в пиар и шоу никакими санкциями не оправдать.

#government #russia #policy #showoff #ai #regulation
Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.

Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.

Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.

Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.

#opendata #closeddata #russia #policy #government
Ещё в копилку происходящего с регулированием данных в России, одна из причин почему я лично перестал как-либо пытаться влиять на госполитику в этой области в том что весь GR в цифре свёлся к "защитному GR'. А то есть он не про продвижение каких-то инициатив выгодных бизнесу, типа открыть какие-то данные, а про снижение вреда от нового регулирования и совсем уж людоедских законопроектов.

Вот и со сдачей данных ровно точно также. Тот же цифровой крупняк в ассоциации толстых котов больших данных хотел бы чтобы этой инициативы вообще не существовало, но вместо этого предлагают модель дата брокеров по обезличиванию данных. Хотя всем прекрасно понятно что главный бенефициар госрегулирования это спецслужбы и пара госов которые получат монополию на частные данные. А обезличивание тут - это дело такое, необезличенные данные кому надо всегда будут доступны. Поэтому история с дата брокерами - это как самих себя высечь небольно, чтобы барин сильно не высек.

А как оно в мире? А в мире всё наоборот. Бизнес обсуждает с государством о том как получать доступ к госданным через дата брокеров, когда не госорганы раздают права, а госорганы дают чувствительные данные сертифицированным дата брокерам и те обезличивают их и передают бизнесу для коммерческих продуктов.

Почувствуйте, что называется, задницу разницу.


#data #government #regulation #russia
В рубрике *как это устроено в России* о том что должно было бы быть открытыми данными, но ими не является. У почти всех российских регионов есть инвестиционные карты. Это, либо отдельные геопорталы, либо разделы на инвестиционных порталах которые точно есть у всех. Например, инвестиционная карта Курганской области [1] или инвестиционная карта Волгоградской области [2]. Можно убедиться что на них есть слои карт и их от десятков до полутора сотен. Другие подобные инвестиционные карты легко находятся по ссылкам с портала инвестпроектов Минэка РФ [3].

Что можно о них сказать? Они все содержат то или иное недокументированное API. Там всего несколько вендоров геоинформационных систем и у них всё довольно стандартизировано. При очень небольших усилиях то же Минэкономразвития могло бы добавить на нацпортал открытых данных более 1000 датасетов и/или стандартизированных API по стандарту WFS. Очень небольшие расходы на всё это нужно, я бы даже сказал мизерные, а вероятность что эти данные были бы небесполезны, конечно, есть.

Но в России нет уже давно нацпортала открытых данных, деятельность в этой области на федеральном уровне, если не свернута, то подзабили на неё изрядно, особенно в Минэкономразвития.

Кстати, к примеру в Казахстане национальный геопортал [4] сделан довольно прилично и там публикуют открытые данные. Не со всех региональных геопорталов они их агрегируют, но и 571 слой карт - это неплохо.

Возвращаясь к ситуации в РФ. Мне бы вот, например, хотелось агрегировать данные с российских геопорталов в Dateno и даже недокументированность их API решается. У типовых систем, типовые API. Но тут уже другое ограничение, российские госсайты в большинстве своём недоступны с зарубежных IP адресов. Краулер работающий не изнутри страны не сможет достучасться до большого числа сайтов. Это, конечно, тоже решается, но требует больше времени и усилий.

В этом смысле поразительна ситуация с европейскими открытыми данными и открытыми данными в других развитых странах где именно геоданные составляют большую часть всего раскрываемого и опубликовано.

Ссылки:
[1] https://invest45.ru/investmap
[2] https://investmap.volgograd.ru
[3] https://invest.economy.gov.ru
[4] https://map.gov.kz

#opendata #data #geodata #russia #api
В рубрике закрытых данных в России Минэнерго закрыло статистику о производстве бензина, в РБК подробности [1] а формулировки то там какие «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом»

С такими формулировками можно всё закрыть вообще. У нефтяной компании есть сайт? Его закрытие тоже «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом» .

АЗС публикуют цены? И их надо закрыть. А цены на бензин запретить обсуждать. 😠

Ссылки:
[1] https://www.rbc.ru/economics/29/05/2024/66574a469a79471b5a6f192e

#opendata #closeddata #russia #energy
Смешная картинка про российскую ГосТехИИзацию. 😂 Но вместо того чтобы говорить что не так с ГосТех'ом в РФ, я скажу что так с ГосТехом в Сингапуре. В основе ГосТеха в Сингапуре много открытого исходного кода и открытых продуктов созданных командой разработчиков их технологического государственного агентства Продукты живые, исходный код доступен https://github.com/opengovsg

Ответить на вопрос что не так с ГосТехом в РФ каждый может самостоятельно😜

#govtech #singapore #russia #opensource
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.me/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
Давайте я для разнообразия напишу про что-нибудь хорошее с открытыми данными в РФ
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets

#opendata #russia #datasets
Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.

Похоже что сайт bigenc.ru придётся архивировать.

С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.

А с другой стороны, а зачем вообще на неё тратили средства?

Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.

Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.

Людей жалко, конечно.

#wikipedia #bigenc #closeddata #russia
В Ведомостях (которые уже совсем не торт) за пэйволом [1] статья о том что Минэкономразвития РФ такие зайки большие молодцы и выпустили циркуляр о том что всем госорганам можно открывать данные для компаний создающие ИИ.

Как человек погруженный в тематику открытых данных очень много лет могу сказать что правильно читать эту новость так:
1. Минэкономразвития продолбало портал data.gov.ru
2. Минэкономразвития не смогло создать новую версию data.gov.ru на Гостехе
3. Министерства продалбывают системное централизованное раскрытие данных и единые стандарты.
4. Методические рекомендации отвратно написаны и давно уже писать их просто некому.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2024/06/17/1044118-kompanii-poluchat-otkritie-dannie-vedomstv-dlya-obucheniya-ii


#opendata #russia #closeddata