Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Одна из ключевых "особенностей" российского государственного ИТ рынка - это непонимание законодателей и регуляторов как он устроен, со всеми посредниками, перепродавцами, "добавителями" добавленной стоимости и так далее.

Я приведу в пример организацию ИТ закупок в Австралии и Новой Зеландии.

В Австралии существует такой способ государственных закупок как Whole-of-Government Arrangements (Всегосударственные соглашения) [1], их аналог в Новой Зеландии - это All-of-Government Contracts (Всегосударственные контракты) [2].

Их смысл в том что, либо правительство, либо уполномоченный орган власти заключает рамочное соглашение с одним или несколькими поставщиками и к этому соглашению *присоединяются* госзаказчики. Как правило эти соглашения, либо содержат заранее согласованные цены, либо формулы цен в зависимости от продукции.

Например, соглашение Агентства цифровой трансформации Австралии (DTA) с компанией IBM [3] было заключено в 2018 году и продолжит действовать до 2023 года. Соглашение устанавливает правила к которым может присоединиться любое государственное агентство.

Остальной текст не помещается в пост в канале и его можно прочитать у меня в блоге https://begtin.tech/aus-procurement/

#australia #ict #procurement
Wall Street Journal пишет о академическом проекте в США по мониторингу военных объектов в России на основе данных собираемых приложениями для смартфонов [1].

Хотя проект и называется академическим, но данные которые в нём используются предоставляются поставщиком Babel Street Inc. на основе их продукта Locate X. О Babel Street Inc. [2] мало общедоступной информации, самый подробный рассказ о них есть в мартовской публикации в Protocol о большом числе их контрактов с правительственными агентствами в США [3], а из их публичной активности известна лишь регистрация торговой марки в 2017 году [4] и ряд госконтрактов упомянутых в статье выше.

Собственно из этих госконтрактов и появляются сведения о Locate X Data [5] который предоставляется заказчику как фид данных.

Причём ранее о продуктах Babel Street было больше информации, они упоминались в отчете Homeland Security за 2016 году, и там были ссылки на описание их продукта Babel X по анализу и категоризации текстовых данных, стоимостью в $14640 за одно рабочее место в год по базовому тарифу и по $41640 по энтерпрайз тарифу.

Это очень большая цена за ПО подобного типа.

Более всего вся эта ситуация похожа на что в какой-то момент Babel Street как поставщик для спецслужб в США и Пентагона (их первый клиент) добавили в линейку своих продуктов покупаемые ими с рынка данные о геопозиционировании конкретных пользователей смартфонов в привязке к местности. Анонимность тут очень условна, поскольку зная контекст и трек передвижений, идентифицировать пользователя возможно давно.

Вопрос лишь где они закупают эти данные? Согласно статье в Protocol - этот поставщик Gravy Analytics [7] о которых ранее в 2020 году медиа писали о том что у них и у компании Venntel [8] правоохранительные органы США закупают данные по точному геопозиционированию.

SDK от Gravy Analytics используются во многих трекерах в ПО для смартфонов. Они партнёрствуют с Adobe [9] и с Axiom [10] и со многими другими. При этом, например, в Exodus Privacy нет трекеров от Gravy Analytics [11], во всяком под текущим их брендом.

Из их презентации за март 2019 года [12] что они собирают данные из более чем 400+ миллионов устройств в объёме до 25 миллиардов событий в сутки (300 тысяч в секунду).

Gravy Analytics, конечно же, не единственная компания собирающая и торгующая данными пользователей. В данном случае ситуация была в выявлении конкретных лиц на испытании на полигоне в Нёноксе под Северодвинском [13].

Здесь мне бы хотелось сказать что-то ободрящее, вроде того что "так будет не всегда" и тотальная слежка за гражданами останется в прошлом, а не как сейчас когда тотальная слежка за потребителями даёт возможности разведкам следить за военными объектами в других странах.

Но объективная ситуация такова что если по умолчанию предполагать что такая возможность есть как минимум у США и Китая (США как страны агрегатора данных сервисов и Китая как агргегатора данных на уровне производителей мобильных устройств), то российских спецслужб в этом списке нет только из-за технических ограничений и из-за того что в России отечественные "национальные ИТ чемпионы" удобных сервисов для мобильной экосистемы создать не сумели и даже какое-нибудь приложение Минфина РФ "Бюджет РФ" [14] или приложение "МВД России" от МВД России [15] или Минкомсвязи "Госуслуги Стопкоронавирус" включают код передачи данных Google, а не AppMetrica от Яндекса [16].

В качестве послесловия добавлю лишь что на фоне тотальной технологической слежки продолжающаяся шпиономания в стиле 20-го века выглядела бы смешно, если бы не было так грустно.
Дмитрий Бутрин в Коммерсанте пишет о продолжении "киборгизации" нацпроектов [1]. Здесь хорошо бы вспомнить аналогичные попытки запустить единую систему госуправления на базе ГАС "Управление". Хотя "запустить" тут будет слишком сильным словом. И про практику внедрение такой вот иерархической проектной модели управления в некоторых субъектах. Куда логичнее, на самом деле, чем на федеральном уровне. Но реформа госуправления глобально давно необходимо, начнётся ли она от этих изменений или ими только и закончится - покажет время.

Ссылки:
[1] https://www.kommersant.ru/doc/4424229
#government
Дайджест по данным и технологиям, с минимальными комментариями:
- Подкаст "How to make the most of AI? Open up and share data " с вице-президентом Open Data Institute, Jeni Tennison [1]
- Семь проектов поддержанных Open Data Institute грантами в 15-20 тысяч фунтов [2]
- Мониторинг воздействия COVID0-19 на сельское население Северной Африки [3]
- Reall - инвестиционная и инновационная компания по продвижению доступного строительства домов в развивающихся странах, делятся данными о их проектах. Для доступа нужна только авторизация [4]
- Digital Leaders в Великобритании 30 июля проводят соревнование питчей о бизнес моделях на основе открытых данных [5]. Не знаю будет ли там что-то новое, но любопытно.
- Economic Value of Open Data [6] исследование Евросоюза о влиянии открытых данных. Объём рынка связанного с открытыми данными оценивается в 184 миллиарда евро к 2025 году.
- в блоге Microsoft о революции открытых данных в Европе [7] за авторством вице-президента по отношениям с Европой. Это публикация в блоге EUPolicy [8], поэтому она ранее выпадала из под моего мониторинга, но теперь понятно что там будет больше публикаций об открытости.

Ссылки:
[1] https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/how-to-make-the-most-of-ai-open-up-and-share-data?cid=other-eml-alt-mip-mck
[2] https://www.ukauthority.com/articles/odi-funds-seven-data-sharing-projects/
[3] https://blogs.worldbank.org/opendata/monitoring-impact-covid-19-and-climate-change-pastoral-populations-sahel?cid=dec_tt_data_en_ext#_ftn3
[4] https://www.reall.net/data-dashboard/global/
[5] https://www.eventbrite.com/e/building-a-sustainable-business-using-open-data-mini-pitch-competition-tickets-113886950936
[6] https://www.europeandataportal.eu/en/impact-studies/open-data-impact
[7] https://blogs.microsoft.com/eupolicy/2020/07/02/europes-open-data-revolution/?_lrsc=0a8a7a2b-c8d0-4feb-be16-05687ca4e303
[8] https://blogs.microsoft.com/eupolicy/

#opendata #digest
Я не успеваю реагировать на все "цифровые новости" длинными комментариями. Постараюсь пробежаться по ним здесь, коротко.

Цифровые трудовые книжки
То что сейчас всех пока добровольно, потом, более вероятно, одномоментно переводят с бумажных трудовых книжек на так называемые цифровые электронные книжки.
В 2012 году я по просьбе одной небольшой организации делал документ видения/дорожной карты внедрения электронных трудовых книжек. Задача была увлекательная, заняла у меня пару недель, и по её окончанию у меня окончательно сложилось мнение что трудовые книжки - это исключительно советский рудимент трудовых отношений актуальный в СССР как в глобальной мета-корпорации, но нефункциональный в современных реалиях. Я думал эта идея тогда померла, но нет, оказывается живее всех живых.
В выигрыше от их внедрения, в первую очередь, контролирующие и надзирающие органы поскольку невозможно будет вносить изменения/правки/записи задним числом. В случае белого-легального бизнеса в выигрыше будет работник (частично). Большинству работодателей это невыгодно, слишком много сложившихся практик это порушит и скорее приведёт к уходу из видимой зоны части трудовых отношений. Поэтому и наиболее вероятный сценарий развития что в цифровую трудовую книжку в определенный момент потребуют вносить все временные договора и договора ГПХ, а может быть, и договора с самозанятыми.
Ах да, ещё в выигрышном положении оказывают банки и все кто занимаются скорингом.
Лично я бы рассматривал эту историю как начало пути к "единому реестру сделок" и значительному упрощению доступа государства к коммерческой тайне. Кстати, и трудовые отношения тоже коммерческая тайна, если что. Перевод их в цифру для многих служб безопасности может быть редчайшей находкой и проблемой.

Экспериментальный режим доступа к перс. данным
НПА которое сейчас продвигает Минэкономразвития и которое уже активно критикуют и будут критиковать дальше, на самом деле, это другая крайность очень плохого регулирования персональных данных в России. Начнём с того что в текущем виде закон о персональных данных не устраивает никого кроме продавцов сертифицированного оборудования. А ещё точнее продавцов сертификации для оборудования. По хорошему регулирование перс. данных - это часть регулирования цифрового потребительского рынка. Для него необходим свой цифровой Роспотребнадзор или глубокая перетряска текущего, аналогового, лампового Роспотребнадзора. И, соответственно, выдерживание баланса интересов граждан и бизнеса.
Проблема сейчас в том что классические механизмы разрешения на использование данных через подпись на бумаге должны быть заменены цифровыми разрешениями и правом цифрового отзыва разрешения на использование данных и, соответственно, право на запрос собственных данных в информационных системах по аналогии с требованиями GDPR и CCPA.
Но важно помнить тут что важен баланс между правом гражданина и правом компаний на обработку данных. Экономика данных в мире сейчас почти на 100% построена вокруг данных о потребителях. Чрезмерные ограничения на использования данных приводят к тому что компании продавцы уходят в серый рынок, меняют юрисдикции и так далее.

Концепция развития искусственного интеллекта
Хорошая задумка, но по прежнему это дом без фундамента. Потому что в ситуации отсутствия национальной стратегии работы с данными, акцент на ИИ, при недоступности данных собираемых государством, не даст возможности полномасштабного развития ИИ. Для сравнения такие стратегии есть во многих странах, наиболее масштабная стратегия единого цифрового рынка Евросоюза. В принципе государство российское пока очень мало делает для доступности больших объёмов данных для ИИ. Посмотрим изменится ли это в ближайшем будущем.

#reactions
Казначейство США открыло специальный портал с открытыми данными по госфинансам FiscalData [1]
Сейчас там опубликовано 18 наборов данных охватывающих такие темы как:
- Debt - госдолг
- Financial Summaries - сводные финансовые показатели
- Interest&Exchange Rate - проценты и курсы обмена
- Revenue - доходы
- Saving Bonds - выпуски облигаций
- Spending - расходы

Некоторые данные, такие как госдолг, представлены за 230 лет, начиная с 1790 года. Данных там много, особенно данных по платежам.
Делает портал команда DataLab [2], это внутренняя команда Казначейства США делающая также их портал раскрытия данных о закупках - USASpending.gov [3]

Правда практически не осталось независимой оценки качества этих данных. В последний раз Sunlight Foundation проводили оценку качества данных в USASpending.gov в 2012 году [4] с общим выводом что с качеством данных там, как бы не очень.

Как бы то ни было - новый источник данных, это всегда радость сердцу и много любопытного. К слову, там же можно немало найти о контрактах в России и ближайших к нам странах.

Ссылки:
[1] https://fiscaldata.treasury.gov
[2] https://datalab.usaspending.gov/
[3] https://usaspending.gov
[4] https://sunlightfoundation.com/clearspending/

#spending #usa #fiscaldata
То что сейчас происходит с компанией Garmin [1] [2], отключение их почты, коллцентров и все сервисов - это, конечно, куда больше чем просто временная недоступность. Это как раз и есть ситуация с падением критической инфраструктуры. Да, Garmin - это крупнейший производитель спортивных гаджетов, но куда важнее то что Garmin это ещё и сервис flyGarmin используемый пилотами по всему миру.

Что немаловажно, flyGarmin используется и пилотами ВВС США [3], включая пилотов разведывательных самолётов U-2.

Для рядовых же пользователей наибольшие риски в том что их устройства "превратились в кирпичи" (нефункциональны) и то что могут быть потеряны накопленные данные за многие годы.

Как предотвращать подобные ситуации и возможно ли? Важнейшим драйвером интернета вещей многие годы было отсутствие регулирования и запретов на централизацию. Устройства пользователей давно перестали хранить их данные, все передаётся на сервера и через сервера же проходит их обновление.


Ссылки:
[1] https://vc.ru/marketing/145101-garmin-upal-i-molchit-sportivnoe-soobshchestvo-v-shoke
[2] https://finance.yahoo.com/news/garmin-global-outage-caused-ransomware-161117855.html
[3] https://theaviationist.com/2020/07/25/garmin-aviation-app-and-services-down-in-ransomware-attack/

#iot #garmin
Правительство Великобритании опубликовало руководство по открытости государства Open Government Playbook [1].

Это перечень действий которые должны выполнять органы власти по направлениям:
- Прозрачность
- Вовлечение
- Подотчётность
- Цифровизация
- Коммуникации

Все направления разделены на стадии: До (Before), В процессе (During) и После (After) по каждому из которых небольшой чёткий список действий.

Ссылки:
[1] https://www.gov.uk/government/publications/open-government-playbook

#opengov
Просто чтобы вы знали. У 35 из 103 официальный сайтов органов власти федерального уровня отсутствует HTTPS. Список включает официальные сайты и их поддомены для версий на английском, китайском и других языках и версии сайтов для людей с ограниченными возможностями.

У некоторых это связано с тем что их домены теперь в зоне .gov.ru и старые домены перенаправляют на новые домены. Пример - Роструд с редиректом с http://rostrud.ru на https://rostrud.gov.ru
Но таких меньшинство.

Это без проверки насколько адекватна там реализация TLS/SSL и так далее.

#ssl #tls #government
Я регулярно повторяю что поскольку сам имею прямое отношение к Счетной палате РФ то не могу комментировать выпускаемые Счётной палатой материалы к которым я сам отношение не имел.

Но что я точно могу сделать - это порекомендовать почитать некоторые выпускаемые отчёты, что называется, для общего просвещения.

Мои рекомендации это эти свежие отчёты:
- Отчет о результатах экспертно-аналитического мероприятия «Мониторинг развития системы государственных и корпоративных закупок в Российской Федерации за 2019 год» [1] Аудитор Каульбарс
- Заключение Счетной палаты Российской Федерации о результатах внешней проверки исполнения Федерального закона «О федеральном бюджете на 2019 год и на плановый период 2020 и 2021 годов» и бюджетной отчетности об исполнении федерального бюджета за 2019 год» в Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации [2]

Названия выглядят сложно, но внутри вполне понятные тексты. Всячески рекомендую их прочитать и, вообще, читать отчеты аудиторов, там много интересного.

Ссылки:
[1] https://ach.gov.ru/checks/schetnaya-palata-potentsial-kontraktnoy-sistemy-raskryt-poka-ne-udalos
[2] https://ach.gov.ru/news/schetnaya-palata-proverila-ispolnenie-byudzheta-v-sfere-tsifrovogo-razvitiya-svyazi-pechati-i-massov

#auditgovru
И ещё одно напоминание. Сайт Счетной палаты несколько раз менялся, ещё при Степашине, позже при Татьяне Голиковой и, наконец, недавно при Алексее Кудрине.

Ещё во время его обновления при Татьяне Голиковой с сайта убрали все архивные бюллетени Счетной палаты, ещё с 90-х годов.

Их архив, тем не менее существует, и доступен в репозитории открытого кода в виде набора данных CSV и JSON и самих файлов отчётов [1]. Язык тех отчётов сейчас может показаться сложным, современные отчёты значительно яснее оформлены, но иногда надо найти интересное в архиве и тогда вот такие наборы данных сильно помогают.

P.S. Коллеги мне напомнили что архивные бюллетени давно уже как перенесли из репозитория кода на сайт Счетной палаты [2], так что теперь можно смотреть и искать ещё удобнее!
Но и про данные архива отчётов не забывайте.

Ссылки:
[1] https://code.ach.gov.ru/scraping/oldbulletins/
[2] https://ach.gov.ru/checks/

#reports #accountingchamber
Вышел доклад Счетной палаты «Открытость государства в России–2020», о нём можно прочитать на сайте СП [1] и полный текст доклада там же [2], а также данные оценок в Excel [3]. Не в формате CSV/JSON только по той причине что оценки все формировались вручную и анализировать их также будет удобнее вручную.

Доклад охватывает не только открытые данные, но и открытость информации и открытость диалога ФОИВов. Методика оценки корректировалась в сторону открытости диалога и открытости информации, уточняя как это должно быть "на самом деле".

Доклад готовила большая команда, в нём немало нового, например, результаты анализа общественных советов. В нём немало ранее актуального, например, про открытые данные.

Если у Вас есть что дополнить, исправить, предложить, уточнить - пишите мне на ibegtin@infoculture.ru

Ссылки:
[1] https://ach.gov.ru/news/gosudarstvo-sredney-zakrytosti-rezultaty-novogo-reytinga-otkrytosti-gosorganov
[2] https://ach.gov.ru/upload/pdf/Otkrytost-2020.pdf
[3] https://code.ach.gov.ru/reports/opengov/tree/master/2020

#opendata #opengov #reports
По поводу проекта постановления Правительства в котором предлагается засекретить закупки и контракты Роскосмоса подробно написало РБК [1], а сам текст постановления можно прочитать на Regulation [2] я, всё же прокомментирую тезисно.

1. Спектр режимов доступа к информации - это не только режимы "всё открыто" и "всё засекречено", но и такие разные варианты и опции как:
- доступно журналистам по запросу
- доступно общественным контролёрам по запросу
- доступно в сокращённом объёме (без текстов контрактов, к примеру) или с сокращённым/убранным предметом контракта
- доступно с задержкой в 3, 6, 12 месяцев
- доступно органам надзора и аудита

и так далее, там ещё много всего

2. Открытость или закрытость закупок - это всегда баланс между секретностью, коммерческой тайной и интересами общества. Роскосмос не ПАО, его отчетность малопонятна, неудобна, недостаточна и так далее. Если скрывать ещё и его закупки, то госкорпорация станет значительно непрозрачнее.

3. У Роскосмоса есть большая специфика в том что очень многие контракты у них внутрикорпоративные. Я лично могу предсказать исполнителя контракта по его извещению с вероятность до 70-80% при контракте до 50 миллионов и почти под 99% при контракте выше 50 миллионов.

4. Сокрытие сведения о расходах которые находятся в открытой части бюджета - это, в принципе, плохая практика. Если всё так серьёзно - переводите деятельность Роскосмоса в секретный режим, переносите всю его деятельность под гостайну.

5. В разных странах есть разная практика в таких случаях. В Великобритании не публикуются тексты контрактов, но публикуются все транзакции. Армия США публикует сведения о контрактах из открытой части их бюджета с задержкой в 6 месяцев. Информация в них крайне скудная, можно лишь узнать кто поставщик, кто заказчик, краткое описание содержания и сумму, но никаких документов или деталей нет. В других странах повторяется аналогичная практика, для силовых и военных ведомств не публикуются подробности, но публикуется факт контракта, сумма, подрядчик и тд. А также законодательство там позволяет журналистам запрашивать информацию уже целевым образом, поскольку они знают о факте и номере контракта это проще.

Поэтому отвечая на вопрос - адекватно ли сокрытие контрактов Роскосмоса?

Нет, закрытие любых сведений о расходах из открытой части бюджета не является правильным решением. Можно публиковать сведения с задержкой, можно публиковать их в сокращённом объёме. Но полностью закрывать - это порождать/поощрять огромную коррупционную нишу

Я бы задал встречный вопрос, а нормально ли существование госкорпораций в России?

Они зарегистрированы как НКО, публикуют минимальнейшую публичную отчетность, аккумулируют огромные средства, недвижимость, ресурсы и так далее и активно лоббируют ещё большую собственную закрытость.

Ссылки:
[1] https://www.rbc.ru/politics/29/07/2020/5f2089909a7947f5f57eb8cc
[2] https://regulation.gov.ru/projects#npa=106485
#procurement #goszakaz
Для тех кто интересуется современной облачной архитектурой, в том числе применительно к проектам на данных.
- Azure architectures https://docs.microsoft.com/en-us/azure/architecture/browse/ шаблоны проектирования архитектуры на базе Microsoft Azure
- AWS Well-Architected https://aws.amazon.com/ru/architecture/well-architected/ инструментарий и примеры проектирования для Amazon AWS
- Google Cloud Architecture https://cloud.google.com/docs/tutorials#architecture архитектура решений в Google Cloud, включая референсные примеры реализации

С отечественными облаками всё сильно хуже, готовых референсных архитектурных моделей для них нет.

#data #architecture
Сбербанк, похоже, окончательно убил раздел с открытыми данными у себя на сайте. Раньше он был по ссылке "https://www.sberbank.com/ru/analytics/opendata", а теперь она редиректит на ссылку с аналитикой. Там были интересные региональные данные, показатели трат по субъектам федерации, но, остались только аналитические продукты Сбера публикуемые в виде PDF документов.

Очень жаль.
Смотрю рано с утра на записи дискуссий о цифровой слежке и приватности с RightCon (конференция про правам человека идущая в эти дни онлайн).

Содержательных обсуждений там немного, пока самое интересное это Real corporate accountability for surveillance capitalism with Shoshana Zuboff and Chris Gilliard [1]

Так не так много диалога, хорошо и чётко говорит только Shoshanna Zuboff с основными тезисами:

- самое главное - это данные
- защита прав граждан от корпораций должно быть ключевые повесткой правозащитных организаций
- стартапы из 90-х и 00-х выросли в гигантские корпорации с огромным и опасным влиянием
- распознавание по лицам должно быть повсеместно запрещено
- некоторых технологий просто не должно существовать

Всё вместе звучит как часть программы политической партии и реакция остальных спикеров там была довольно сумбурной. В принципе дискуссия там больше походила на серию монологов Shoshanna Zuboff.

Но на что нельзя не обратить внимание, так это то что основными адресатами её речи являются не представители правозащитных организаций, а скорее те кто их финансирует - правительства стран ОЭСР (в основном США и Евросоюз), крупнейшие частные фонды.

И вот тут возникает важнейший вопрос повестки: может ли их политика перестроится в этом направлении?

Основные объекты критики сейчас - это крупнейшие цифровые/дата корпорации. Первые в этом списке Google, Amazon и Facebook, но ими всё не ограничивается. Большинство из них в Кремниевой долине, несколько в других регионах США, но почти все они в США.

Если в других правозащитных вопросах у США применяли моральный императив переноса демократии в другие страны и большая, отлаженная повестка поддержки тех кто защищал права человека в не самых развитых и демократических странах, то здесь это, во многом, внутренний вопрос под сильным внешним давлением других стран, в первую очередь стран ОЭСР, Евросоюза и других союзников США.

Могут ли правозащитные организации перестроиться на атаку на дата корпорации? Наверняка могут и тысячи пчёл могут закусать даже толстокожих слонов, но как это сделать не потеряв контроля за цифровыми экосистемами вот в чём вопрос.

И это же возвращает нас к вопросу о проблемах цифрового контроля государств в Интернете. Сейчас этот контроль, довольно ограниченный есть:

- у США где юридически находятся все основные владельцы цифровых экосистем;
- у Китая где есть свои технологии, корпорации, жесткое регулирование и экономические преференции своим компаниям;
- у Евросоюза за счёт огромного рынка, потребительского и корпоративного

Остальные страны (власти стран) влияют на все эти процессы очень ограниченно.

Можно ещё поразмышлять что будет дальше, а пока стоит посмотреть запись "атаки на Bigtech" на слушаниях в конгрессе США [2]. Где руководители Google, Facebook, Apple и Amazon под атакой членов конгресса скорее сдают позиции чем набирают очки.

Пока всё идёт к сценарию постепенного ужесточения корпоративного регулирования технологических компаний-гигантов в США.

Ссылки:

[1] https://www.youtube.com/watch?v=FX2g6xPeftA
[2] https://www.youtube.com/watch?v=WBFDQvIrWYM

#digital #privacy #government
Я как то рассказывал что веду систематизированный реестр всех госдоменов в России. Они доступны в репозитории на Github [1] для федеральных и региональных властей.

Применений у него много:
- сбор однотипной информации с сайтов
- архивация сайтов с риском исчезновения
- анализ их защищённости (поддержка HTTPS)
- анализ применения стандартов
- анализ цифровых активов госорганизаций
и ещё многое другое.

Но реестр на github'е всегда был не до конца точный, он собирался вначале через поиск корневых доменов и затем поиск всех их поддоменами разными автоматизированными способами.

Но их надо было почистить, классифицировать и тд.

Поэтому на его основе сейчас у меня есть реестр доменов используемых на федеральном уровне власти, 7516 доменов на сегодня. Из них около 2500 - это сайты судов и около 900 сайты подразделений МВД. Все сайты на 3/4 размечены по типам сайтов, на 1/5 по региональной привязке (есть не у всех, а только у территориальных управлений).

Не все из них, в принципе, доступны, некоторые на которых были сайты сохранены по архивным соображениям.

Но по доступным есть проверка поддерживают ли они HTTP и HTTPS.

Если кому-то этот реестр нужен то его рабочая версия есть в отдельной папке репозитория [2]. Этот список - это экспорт из эталонной базы которая теперь перенесена в Airtable. Самой базой в Airtable могу поделиться если кто-то будет готов контрибьютить туда регулярно.

Ссылки:
[1] https://github.com/infoculture/govdomains/
[2] https://github.com/infoculture/govdomains/tree/master/refined

#govenment #domains
К вопросу о "терминологических спорах". Их тоже очень любят в академической среде и поэтому там регулярно разрабатываются тезаурусы. Тезаурус, практически всегда - это не что-то сделанное на бегу, а полноценный и большой проект.

Пример подобного тезауруса - это HASSET [1], британский справочник по гуманитарным и социальным наукам созданный в рамках UK Data Service. Справочник включает чуть более 11800 терминов отклассифицированных как:
- Preferred Terms (предпочитетельные)
- Use For (UFs) or Non-Preferred Terms (используемые для...)
- Broader Terms (BTs) (широкие)
- Narrower Terms (NTs) (узкие)
- Related Terms (RTs) (связанные)

Справочник представлен как связанные данные и связан со онтологией SKOS [2]

А также его можно получить целиком по ссылке [3].

Другой пример профессионально сделанного тезауруса про данные - это тезаурус данных Network of the National Library of Medicine в США [4] где по каждому термину приведены все первоисточники на основе которых он строился и даже при тезаурусе в 70 понятий у него указываются все авторы и составители персонально
---
The Data Thesaurus is the updated eScience Thesaurus which was created by Kevin Read in 2013 and previously resided on the eScience Portal for Librarians (Read et al., 2013). The Thesaurus was rebranded and updated in 2018 by Tess Grynoch for the NNLM RD3 site.
---
Таких примеров ещё много. И не только в области работы с данными, а во всех профессиональных областях. Один и тот же термин в области бухучёта может означать совсем не то же что в регулировании госуслуг, к примеру.

Списки и глоссарии терминов устроены так что ты или делаешь их "тяп-ляп", например делаешь сайт по какой-то теме и выводишь их списком, либо придумываешь свои термины или интерпретацию с прицелом на то что они стали общепринятыми, либо подходишь к этому профессионально и описываешь каждый термин в модели полноценной базы данных тезауруса.

Ссылки:
[1] https://hasset.ukdataservice.ac.uk
[2] https://lod.data-archive.ac.uk/v2-skoshasset/page/en-GB/
[3] https://hasset.ukdataservice.ac.uk/hasset-guide/obtaining-hasset.aspx
[4] https://nnlm.gov/data/thesaurus

#terms #data #glossary
К вопросу о том что изменилось за последние годы с государственной ИТ инфраструктурой, гораздо меньше стало прямой зависимости от не-российских сервисов (но осталось много косвенных зависимостей).

Например, очень немногие сайты госорганов или сделанных за бюджетные средства теперь хостятся за рубежом.
Единственные которые остались в моём личном списке:
- energourok.ru, IP 31.170.123.72, хостинг UKWEBHOSTING (просветительский сайт Минэнерго России)
- old.minstroyrf.ru, IP 178.238.232.114, хостинг Contabo, Германия, сейчас отключен (старый сайт Минстроя РФ)
- torgi.fas.gov.ru, IP 23.236.62.147, платформа создания сайтов Wix, США, сейчас отключён (один из проектов ФАС России)
И, наконец, вишенка на торте, сервер "s.mil.ru" - это укорачиватель ссылок используемый в Минобороны РФ. Этот домен - это custom domain сервиса Bit.ly (США). С его помощью создаются и публикуются ссылки на сайте Минобороны

Это всё без учёта многочисленных бюджетных учреждений, унитарных предприятий и иных структур органов власти. Только по доменам в зоне .gov.ru и по доменам которые относятся к федеральным органам власти, 7502 домена

Если провести аналогичный анализ региональных сайтов/доменов и сайтов госучреждений, то картина будет покрасочнее.

Поэтому пока можно сказать что на федеральном уровне такие случаи стали редкостью. А вот косвенных зависимостей таких как установка отслеживающих кодов, внедренных сервисов и тд. очень много. Какие-то ведомства вставляют в свои страницы визуализацию в Tableau, какие то PowerBI, какие-то самые разные другие инструменты.

Хорошо это или плохо? Это неорганизовано. Госполитики в этой области нет, беда со всеми внедренными сервисами в неархивируемости представленных там материалов.

#government #it #infrastructure