Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Времени до смены правительства осталось очень мало, около 30 дней, а это означает что при кадровых заменах очень многие государственные сайты могут измениться/исчезнуть.

Такие случаи уже были и чаще они связаны с банальным отсутствием общегосударственной политики цифровых материалов и и отсутствием культуры сохранения знаний. Единственное редкое исключение из правил - это Центральный банк и служба по финансовым рынкам.

Прежде чем начинать массовую архивацию нужна работа по инвентаризации всех веб-сайтов относящихся к госпроектам и к органам власти.

Для того чтобы упростить эту работу я создал открытый репозиторий govdomains https://github.com/infoculture/govdomains в нашем аккаунте Инфокультуры на Github'е где начался сбор доменов и поддоменов госсайтов.

Сейчас акцент на доменах федеральной власти поскольку именно сайты министерств, полпредств, их проекты и тд находятся в зоне риска.

Однако и архивация региональных властей тоже необходима, пока это проделывалось только с сайтами Правительства Москвы. По мере актуальности возможно и для остального.

Этот реестр будет полезен не только для архивации, но и для мониторинга госсайтов он может пригодится.

Если Вы знаете какие-либо сайты которых в этом списке нет - пишите мне или изменяйте/дополняйте прямо на github'е

#opendata #govdomains
В качестве напоминания, один из небольших проектов в Инфокультуре, как часть национального цифрового архива [1], я веду реестр всех доменов органов власти в репозитории на Github [2].

Сейчас в репозитории два больших обновления:
1. В папку refined [3] выложена рабочая версия обогащённых и очищенных данных по 7500 доменам в зоне .gov.ru и иным корневым доменам федеральных органов власти.
Это включает следующие сведения:
* feddomains.csv - домены в ведении федеральных органов власти
* organizations.csv - организации управляющие доменами федеральных органов власти
* govsystems.csv - государственные информационные системы к которым домены привязаны
* asn.csv - подсети (ASN) с привязкой к ним доменов
* regions.csv - регионы к которым привязаны домены федеральных органов власти

2. В папку "regional/77" выложен обновлённый список доменов связанных с Правительством Москвы (большая часть это поддомены домена mos.ru), всего 2265 доменов. Эти пока нерассортированная, неверифицированная куча доменов каждый из которых необходимо будет верифицировать в будущем. Большая часть систем города Москвы делается через "прокладку" в лице ДИТ Москвы и точки выхода API, контентных сайтов и т.д. не всегда локализованы в конкретных поддоменах. За полтора года поддоменов домена mos.ru стало значительно больше, весьма, весьма больше.

Я очень давно хотел эту работу проделать чтобы систематизировать стратегию архивацию сведений с официальных сайтов. В последнее время появилось слишком много сайтов внутри которых есть те или иные ограничения из-за которых веб-архивация не работает. Кстати, сам сайт Мэрии Москвы www.mos.ru устроен именно так, значительная часть сведений на страницах отдаются через API и JSON, в результате веб архивация не работает, поиск по документам внешний поиск тоже работает не очень.

Поэтому сейчас каждому веб-сайту в экспортированном списке feddomains.csv указывается стратегия архивации, факт архивации и, в будущем, факты наличия архивов. Следующим, непростым шагом, задача по сопоставлению огромной свалки архивов которая хранится на серверах национального цифрового архива со списком доменов чтобы понять по каким сайтам архивы есть, а по каким нужно срочно запускать процесс архивации.

Обратите внимание что все приведенные выше материалы являются рабочими. Далеко не по всем сайтам определена их региональная привязка, не все информационные системы привязаны и далеко не все метаданные заполнены. Более менее полными можно считать пока сам список доменов, типизацию сайтов, список организаций и ASN.

Если хотите помочь в этом, то пожелания и предложения доменов/сайтов для каталогизации направляйте в репозиторий через механизм issues [5].

P.S.
Вообще лично я надеялся много лет что Минцифра или Минэкономразвития сама рано или поздно сделают нормальный реестр госдоменов, вместо убогого Gosmonitor'а [6], но не дождался и уже много лет делаю сводный реестр самостоятельно в рамках Инфокультуры @infoculture.

Ссылки:
[1] https://ruarxive.org
[2] https://github.com/infoculture/govdomains
[3] https://github.com/infoculture/govdomains/tree/master/refined
[4] https://github.com/infoculture/govdomains/tree/master/regional/77
[5] https://github.com/infoculture/govdomains/issues
[6] https://gosmonitor.ru

#government #govdomains #infoculture
Один из наборов данных в DataCrafter'е - это база государственных доменов, которую я много лет веду для Национального цифрового архива (ruarxive.org) в виде репозитория на Github'е [1] и в виде базы в Airtable, причём сейчас именно база в Airtable наиболее вычищена и актуальна.

В DataCrafter она загружена 5 таблицами [2]:
- Домены
- Корневые домены
- ASN
- Госорганы и организации
- Регионы
- Государственные информационные системы

Это открытая часть контура DataCrafter'а поэтому все эти данные можно скачать одним архивом в разделе "Сборки и версии" [3], а также можно воспользоваться API без авторизации и ключа.
Как проверить домен что это домен госоргана или госструктуры
Пр запросу
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22Domain%22:%22sudrf.ru%22}
передаётся параметр Domain и можно получить карточку домена если он есть в базе.

Или мы хотим получить список доменов Минюста России. Минюст России есть в таблице организаций [4]
с идентификатором recPluHB9B0SGs867 . Передаём его как параметр к запросу этой таблицы [5] и получаем список идентификаторов доменов в поле Domains.

Для каждого домена делаем запрос с параметром id из поля Domains и получаем карточки каждого домена
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22id%22:%22recPjVbY9U2r6LTOX%22}

Аналогично работают API для доступа к остальным таблицам и, ещё раз напомню, можно скачать эту базу данных целиком. Все данные в пакете данных хранятся в формате JSON lines и легко импортируются в любую СУБД для работы JSON документами.

Ссылки:
[1] github.com/infoculture/govdomains/
[2] https://beta.apicrafter.ru/packages/govdomains/tables
[3] https://beta.apicrafter.ru/packages/govdomains/builds
[4] https://beta.apicrafter.ru/tables/govdomains/organizations
[5] https://api.crftr.net/open/rawapi/v3/govdomains/organizations?where={%22id%22:%22recPluHB9B0SGs867%22}

#opendata #opengov #govdomains
Недавно я писал про различные онлайн сервисы которые в мире создаются G2G, органами власти для органов власти. Один из них - мониторинга безопасности и качества создания веб-сайтов Pulse когда-то был создан в США командой 18f и был доступен по адресу pulse.cio.gov (сейчас переадресует), а с приходом в Белый дом команды Трампа он был переименован в DigitalDashboard.gov и теперь доступен только после авторизации.

Исходный код Pulse был открыт с 2015 года, он открыт и сейчас, но уже заархивирован и не обновляется с 2019 г. За это время многие органы власти и активисты форкали репозиторий pulse и создавали его клоны для доменов госорганов своих стран. К примеру, https-norge по норвежским госсайтам, pulse.openstate.eu по сайтам органов власти Нидерландов, https.jetzt по сайтам правительства и земель Германии. На этих сайтах можно посмотреть как этот сервис выглядит.

Похожие продукты создавались и создаются в других странах. В Канаде под аналогичным названием Pulse работает закрытая система мониторинга HTTPS для госинфраструктуры.

#privacy #security #govdomains #tls #dnssec
Я регулярно рассказываю о том что веду реестр государственных доменов для архивации госсайтов. Доменов там сейчас более 7700 привязанных к 215 "корневым" доменам. Например, многие учреждения имеют поддомены в доменных зонах mvd.ru, sudrf.ru, msudrf.ru и других, а в "корневом" домене .gov.ru всего 977 доменов и их поддоменов с веб-сайтами. На самом деле этот список куда больше, потому что есть более 50 тысяч госучреждений и их сайты рассеяны по всем доменным зонам, но, с другой стороны, для архивационных целей они мне не очень то и нужны.

Много лет мне кажется что про госсайты я знал/знаю не то чтобы всё, но многое. Слишком уж часто приходится читать регуляторные материалы, изучать информационные системы и так далее. Но вот недавно обнаружил что совсем не всё. Оказывается в 2018-2019 годах ФСО России наплодило множество порталов с доменными именами pravo01.gov.ru, pravo02.gov.ru, ... и так далее. Как вы уже догадались - это сайты с кодом региона и по региональной тематике. Вдруг там что-то интересное? Хотелось бы, но нет. Эти сайты - это сайты визитки к порталу правовой информации pravo.gov.ru. Технологически они сделаны каким-то совершенно древним образом на старой версии CMS Joomla с отличиями только в виде новостной ленты, всё остальное практически идентично и контента там практически ноль. Ссылок на эти порталы на других ресурсах также практически нет, лично я нашёл их случайно.

Вердикт - архивировать там нечего по содержанию. Остаётся только один вопрос как и в рамках какого госпроекта такое вообще могли сделать ? Они ведь обновляются, в том смысле что новости там публикуются, значит кто-то тратит время, хотя и очень небольшое, на то чтобы новости там писать. Но об этих сайтах никто не знает, на них нет ссылок даже на pravo.gov.ru, за исключением портала созданного для Приморского края [1].

Другая, уже не курьёзная, а интересная-интересность - это, оказывается, ДИТ Москвы когда-то создали каталог API apistore.mos.ru [2] где есть прототипы 15 API, но как-то они уже 2019 года не обновлялись и непонятно работает ли. Любопытно что вместо инвентаризации систем с API они пошли по пути создания новых (или прокси для имеющихся), но, всё равно без инвентаризации существующих API которых у информационных систем города Москвы довольно много.

Например, API инсталляции ArcGIS [3] на сайте apieatlas.mos.ru или, также, API к ArcGIS [4] на портале КИС Санкт-Петербурга и таких инсталляций у региональных и муниципальных властей в России от десятков до сотен, сколько всего никто не знает. Откуда это API? Оно является неотъемлимой частью каждой установки ArcGIS и есть много других продуктов где также есть открытые API по умолчанию.

В США похожая история, нет единого госкаталога геоAPI и один активист собирает гигантский PDF файл с каталогом [5] из 3500+ API к ArcGIS.

От себя могу добавить и повториться что API ко многим госсистемам - это важный источник наполнения нашего каталога данных Datacrafter [6]. А о том как автоматически собирать данные из API я регулярно рассказываю на конференциях.

Ссылки:
[1] http://pravo.gov.ru/news/o_prezentatsii_internet_sayta_pravovoy_informatsii_primorskogo_kraya_090618/
[2] https://apistore.mos.ru
[3] http://apieatlas.mos.ru/arcgis/rest/services
[4] http://gis.toris.kis.gov.spb.ru/arccod1031/rest/services/
[5] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
[6] https://data.apicrafter.ru

#opendata #api #archives #govdomains