Ivan Begtin
9.34K subscribers
2.12K photos
3 videos
103 files
4.85K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics
Пишут что российское Минцифры предложило запретить использование иностранных мессенджеров в рабочих целях [1].

Очень трудно удержаться от того чтобы такое не прокомментировать. А что после этого и других подобных инициатив удивительно что все квалифицированные ИТ спецы кто могут стараются не работать из России и уезжают, кто далеко, кто недалеко? Я готов поспорить что есть прямая корреляция между запретами на коммуникацию, а также любыми ограничениями вызванными политической целесообразностью и профессиональной деятельностью.

Неважно где это происходит, в России, в Турции, или ещё в каких странах.

Государство не должно лезть в твою постель, в твой телефон и в твою голову.

P.S. И в твои данные, конечно же, тоже.

Ссылки:
[1] https://www.interfax.ru/russia/996664

#russia #government
В рубрике как это устроено у них несколько проектов с открытыми данными по всем государственным доменам в США.

.gov data
[1] база всех доменов в зоне .gov, создана и актуализируется Cybersecurity and Infrastructure Security Agency, доступно в виде датасетов CSV файлов и файлов зоны .gov для DNS. Ведётся как полноценный дата продукт, регулярно обновляется.

GDA/govt-urls [3] репозиторий от U.S. General Services Administration с актуальным перечнем доменов/ссылок на все домены относящиеся к государству федеральные, уровня штатов, локальные, квазигосударственные и др. Огромное их число не в домене .gov кстати

ScanGov [4] публичный проект сканирования госсайтов на предмет соблюдения обязательных требований, рекомендаций и тд. В общем, лучшие практики. Создано в Civic Hacking Agency, использует базы сайтов выше и доступны новые датасеты [5]

Analytics.USA.gov [6] монитор статистики по большинству федеральных сайтов США. Отдаёт данные датасетами и API.

Service Status Checker [7] сервис проверки, мониторинга и уведомлений о недоступности для геопространственных сервисов. Мониторит большое число государственных геопространственных API в США, в основном это сервисы на базе ArcGIS и Geoserver, но не только их.

Ссылки:
[1] https://github.com/cisagov/dotgov-data
[2] https://get.gov/about/data/
[3] https://github.com/GSA/govt-urls
[4] https://scangov.org/
[5] https://docs.scangov.org/data
[6] https://analytics.usa.gov/
[7] https://statuschecker.fgdc.gov/

#opendata #government #domains #datasets
Много лет я писал что Гостех в РФ - это мертворождённый проект. Вначале от него отказались в Пр-ве Москвы, потом в Пр-ве Казахстана, а теперь и федералы слили его. Если честно в какой-то момент меня перестала беспокоить его судьба, потому что заниматься большими международными данными куда интереснее чем российская госинформатизация. Но тем не менее. Итог закономерный и это радует.

#russia #government #govtech
Свежие тенденции госинноваций из последнего отчета ОЭСР [1]:
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности

Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.

Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.

И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.

По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.

А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.

Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/

#opendata #opengov #data #oecd #government #innovation
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.

Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.

Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/

#government #russia #diigitalpreservation #airtraffic #statistics
В последние дни уходящей администрации Байдена, 15 января OMB (Офис управления и бюджета США) выпустили [1] руководство по реализации OPEN Government Data Act [2] это документ с конкретными шагами и требованиями принятого 6 лет назад закона об открытости. Его ещё тогда подписал Трамп, а потом, по разным причинам команда Байдена тянула с ним до последнего и выпустили только сейчас.

Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.

Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)

Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf

#opendata #usa #government
Оказывается ещё в октябре прошлого года в США появился новый Стратегический план Национальной инфраструктуры геопространственных данных (NSDI) на 2025-2035 годы [1]. Кроме всего прочего там, ожидаемо, есть разделы посвящённые публикации датасетов, открытым данным, маркетплейсам геоданных и так далее. А общая установка на то что геоданные должны быть открыты для всех пользователей. Ну и сам план стал более универсальным и 10летним, предыдущие планы были на 5 и на 3 года.

Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.

Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].

На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.

Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.


Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports

#opendata #policy #geodata #usa #strategies #government
Я, кстати, поначалу не обратил внимание, а на сайте Пр-ва РФ то есть появилась в феврале страница Основные показатели и мероприятия национального проекта «Экономика данных и цифровая трансформация государства» [1] и там, собственно, показатели и есть.

Показателей много, разных, какие-то мне лично нравятся, какие-то категорически не нравятся. Но об этом как-нибудь в другой раз. А вот показатель доступности 500 датасетов вызывает, честно говоря, смех.

Число 500 актуально только если это так называемые high-value datasets, термин есть в законах Евросоюза, но нет ничего в российских НПА. Это когда данные особо ценные, когда известно какие это данные и дорожная карта по их публикации. Хорошая штука, когда осмысленна.

А просто 500 наборов я лично могу собрать из разного мусора за день, а из хороших данных за месяц.

На закрытом портале data.gov.ru было около 20 тысяч датасетов (хреновых, но количество же тут), на портале открытых данных Москвы около 800 датасетов и так далее.

В общем это даже не низковисящие плоды, а не пойми что.

И тут, в который раз, не могу не отметить значительную закрытость этого Пр-ва по сравнению с предыдущими. Причём это вопрос не 2022 года, а гораздо более ранний. Года с 2020 если не раньше. Почти по всем нац проектам материалы доступны в пресс релизах, выступлениях и, с огромными задержками или совсем недоступны, содержательные документы.

У меня уже много лет нет рабочей необходимости копаться в структуре госрасходов, мероприятиях и контрактах и показателях результативности гос-ва. Но не отмечать очевидное тут сложно.

Ссылки:
[1] http://government.ru/info/54314/

#opendata #government #russia #spending
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.

Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а

Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.

Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.

Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml

#opensource #government #standards
Полезные ссылки про данные, технологии и не только:

AI & Science

- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.

Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.

Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).

Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/

#opendata #opensource #openaccess #ai #science #government #data
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending
Я как и многие прочитал про свежий список разрешённых игрушек в детских садах [1].

Подробной информации нет, а из уст министра Кравцова это звучало вот так
... Поэтому нам нужен перечень тех игрушек, которые будут поставляться в детские сады: для каждого определенного возраста - свой. К сожалению, в магазинах на полках мы до сих пор видим множество игрушек, которые формируют ценности, чуждые российским". ...

Поначалу я планировал прокомментировать это всё с долей иронии, но понял что хоть и ирония тут имеет право на существование, но сама тема очень серьёзная. Потому что реестры, списки и перечни вот уже много лет как стали одним из основных инструментов государственного управления. Я, для простоты, буду далее это называть реестровой системой управления.

Что такое реестр ? Это, как правило, белый или чёрный список организаций или людей или иных связанных с ними объектов (продуктов, товаров, произведений и тд.) с которыми связаны ограничения на доступ к определенному роду деятельности через разрешение только для включённых в этот список (белый список) или исключение включённых в него (чёрный список).

Например, реестр нежелательных организаций или реестры иноагентов или реестры недобросовестных поставщиков - это чёрные списки. А реестры отечественного ПО или реестр ИТ компаний - это белые списки. Черные списки создаются по принципу того чтобы сделать очень плохо ограниченному числу организаций или граждан, а белые списки про то чтобы сделать лучше большему числу участников и плохо всем остальным.

Что лучше, что хуже я сейчас оценивать не буду, это всё зависит от области применения. Важно помнить что это одна из форм кодификация ограничений. При этом, безусловно, реестры обладают высокой степенью коррупционноёмкости (случайно такое сложное слово вырвалось). Включение в или исключение из реестра может лишить включаемого доступа к рынку, ресурсу, возможности заниматься профессиональной деятельностью и тд.

Например, контекст вокруг списка игрушек таков что единственная модель его практического применения - это ограничения в государственном и муниципальном заказе. Но для этого надо, или провести это в федеральном законе, или навязать только для детских садов ремонтируемых за счёт федерального бюджета через требования в текстах субсидий выдаваемых Минпросвещения, или на региональном уровне решениями региональных правительств. Потому что детские сады, почти все, находятся в муниципальном ведении или, реже, в ведении субъектов федерации.

Поэтому как этот список появится, сколь скоро и насколько он будет обязательным - надо ещё последить. Важнее другое, этот реестр является абсолютно логичной моделью регулирования в рамках российской системы госуправления основанной на контроле и патернализме. Контроль - это реестр, патернализм - в том что федеральные чиновники считают что никому кроме них нельзя доверить столь ответственное дело как выбор игрушек для детей. Я об этом ранее писал в контексте ИТ рынка, но это универсальная парадигма.

Каждый такой реестр и список - это ещё один шаг в копилку тех кто хотел бы "чтобы страна жила построже". И если такой список игрушек появится и будет кодифицирован - это ровно такой пример.

Ссылки:
[1] https://rg.ru/2025/03/04/minprosveshcheniia-utverdit-perechen-igrushek-dlia-detskih-sadov.html

#government #russia #data