Ivan Begtin
9.32K subscribers
2.11K photos
3 videos
103 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В продолжение про БРЭ и почему печальный конец проекта был только вопросом времени. Я бы начал с того что вопрос о том почему необходимо поддерживать классические энциклопедические проекты в мире давно не стоит на повестке. В большинстве стран где создавались национальные энциклопедии этот процесс остановился ещё лет 15 назад, если не больше и Вики проекты, в первую очередь Википедия, даже не столько заменили энциклопедии в создании знания, сколько коммодизировали его доступность пусть даже и ценой меньшей достоверности, компенсируемой широтой и актуальностью.

У этого есть много причин, я бы выделил такие главные из них как:
1. Вовлечение широкого числа мотивированных участников в создание общего знания.
2. Понимание у участников того, что всё ими созданное принадлежит человечеству, не закрыто копирайтом и не является собственностью конкретного юр. лица
3. Открытая Вики экосистема: свободные лицензии, открытый код, открытые данные, открытые API и тд.
4. Гибкость, адаптируемость под новые способы работы с данными, авторедактирование, исправление и многое другое.

Для всех кто создавал знания с помощью Mediawiki или Semantic Mediawiki это может показать очевидным. Но не для создателей БРЭ в текущей их онлайн реинкарнации.

К тому как БРЭ создавалось у меня много вопросов, начиная с фундаментальной непрозрачности проекта (поди найди их годовые отчёты, их нет ) и продолжая выбранным форматом создания, но ключевое следующее:
- все материалы в БРЭ закрыты копирайтом. При том что это 100% госфинансирование, при том что в самой энциклопедии используется бесконечное число материалов взятых из первоисточников в CC-BY-NC/CC-BY.
- БРЭ никогда не была открытой средой. Там не было не только свободных лицензий, но и API, экспорта датасетов, открытого кода и вообще ничего
- всё это время чуть ли не единственная мотивация авторов писать туда была оплата за статьи. Денег нет - моментально нет нового контента.

Поэтому даже если БРЭ, по какой-либо, неведомой причине, власти РФ решат спасать то всё что необходимо сделать:
1. Опубликовать все материалы БРЭ под свободной лицензией допускающей свободное использование в любом Вики проекте, конкретно под лицензией CC-BY и в виде открытых данных.
2. Перевести в открытый код весь исходный код используемый в БРЭ.

Если не решат спасать, то сделать надо то же самое.

#government #content #encyclopedy #wiki #data
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics
Пишут что российское Минцифры предложило запретить использование иностранных мессенджеров в рабочих целях [1].

Очень трудно удержаться от того чтобы такое не прокомментировать. А что после этого и других подобных инициатив удивительно что все квалифицированные ИТ спецы кто могут стараются не работать из России и уезжают, кто далеко, кто недалеко? Я готов поспорить что есть прямая корреляция между запретами на коммуникацию, а также любыми ограничениями вызванными политической целесообразностью и профессиональной деятельностью.

Неважно где это происходит, в России, в Турции, или ещё в каких странах.

Государство не должно лезть в твою постель, в твой телефон и в твою голову.

P.S. И в твои данные, конечно же, тоже.

Ссылки:
[1] https://www.interfax.ru/russia/996664

#russia #government
В рубрике как это устроено у них несколько проектов с открытыми данными по всем государственным доменам в США.

.gov data
[1] база всех доменов в зоне .gov, создана и актуализируется Cybersecurity and Infrastructure Security Agency, доступно в виде датасетов CSV файлов и файлов зоны .gov для DNS. Ведётся как полноценный дата продукт, регулярно обновляется.

GDA/govt-urls [3] репозиторий от U.S. General Services Administration с актуальным перечнем доменов/ссылок на все домены относящиеся к государству федеральные, уровня штатов, локальные, квазигосударственные и др. Огромное их число не в домене .gov кстати

ScanGov [4] публичный проект сканирования госсайтов на предмет соблюдения обязательных требований, рекомендаций и тд. В общем, лучшие практики. Создано в Civic Hacking Agency, использует базы сайтов выше и доступны новые датасеты [5]

Analytics.USA.gov [6] монитор статистики по большинству федеральных сайтов США. Отдаёт данные датасетами и API.

Service Status Checker [7] сервис проверки, мониторинга и уведомлений о недоступности для геопространственных сервисов. Мониторит большое число государственных геопространственных API в США, в основном это сервисы на базе ArcGIS и Geoserver, но не только их.

Ссылки:
[1] https://github.com/cisagov/dotgov-data
[2] https://get.gov/about/data/
[3] https://github.com/GSA/govt-urls
[4] https://scangov.org/
[5] https://docs.scangov.org/data
[6] https://analytics.usa.gov/
[7] https://statuschecker.fgdc.gov/

#opendata #government #domains #datasets
Много лет я писал что Гостех в РФ - это мертворождённый проект. Вначале от него отказались в Пр-ве Москвы, потом в Пр-ве Казахстана, а теперь и федералы слили его. Если честно в какой-то момент меня перестала беспокоить его судьба, потому что заниматься большими международными данными куда интереснее чем российская госинформатизация. Но тем не менее. Итог закономерный и это радует.

#russia #government #govtech
Свежие тенденции госинноваций из последнего отчета ОЭСР [1]:
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности

Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.

Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.

И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.

По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.

А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.

Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/

#opendata #opengov #data #oecd #government #innovation
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.

Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.

Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/

#government #russia #diigitalpreservation #airtraffic #statistics
В последние дни уходящей администрации Байдена, 15 января OMB (Офис управления и бюджета США) выпустили [1] руководство по реализации OPEN Government Data Act [2] это документ с конкретными шагами и требованиями принятого 6 лет назад закона об открытости. Его ещё тогда подписал Трамп, а потом, по разным причинам команда Байдена тянула с ним до последнего и выпустили только сейчас.

Документ короткий, 32 страницы, привязан к контексту и законодательству США. На что можно обратить внимание:
- реализация принципа Open by default
- чёткий перечень причин по которым агентствам рекомендуется выбрать почему они публикуют данные. Там есть, например, развитие технологий ИИ и публикация данных для их обучения и улучшение воспроизводимости научных исследований. Ну и более популярных причин вроде пользы для общества тоже много
- нет жёстких рекомендаций по форматам, упоминают CSV, JSON и XML и то что любые другие машиночитаемые открытые форматы
- всё построено вокруг Federal Data Catalog и инвентаризации данных агентствами, результаты инвентаризации рассматриваются как data asset
- и, конечно, у каждого государственного агентства должен быть Open Data Plan, документ описывающий принципы и порядок раскрытия данных.

Документ выдержанный в правильных терминов открытых лицензий, стандартов, приоритетов и тд. Но, конечно, задержался он на 6 лет:)

Ссылки:
[1] https://www.nextgov.com/digital-government/2025/01/omb-issues-open-government-data-act-guidance-6-years-after-its-signing/402225/
[2] https://www.whitehouse.gov/wp-content/uploads/2025/01/M-25-05-Phase-2-Implementation-of-the-Foundations-for-Evidence-Based-Policymaking-Act-of-2018-Open-Government-Data-Access-and-Management-Guidance.pdf

#opendata #usa #government
Оказывается ещё в октябре прошлого года в США появился новый Стратегический план Национальной инфраструктуры геопространственных данных (NSDI) на 2025-2035 годы [1]. Кроме всего прочего там, ожидаемо, есть разделы посвящённые публикации датасетов, открытым данным, маркетплейсам геоданных и так далее. А общая установка на то что геоданные должны быть открыты для всех пользователей. Ну и сам план стал более универсальным и 10летним, предыдущие планы были на 5 и на 3 года.

Одно из главных отличий от предыдущего стратегического плана [2] в отсутствии упоминания конкретных платформ/продуктов. Например, в прошлой версии плана на 2021-2025 годы явным образом заявлялось развитие портала Geoplatform.gov, сейчас он не упоминается явным образом.

Важно помнить что кроме обновлённой стратегии NSDI с 2018 года в США действует Geospatial Data Act of 2018 (GDA) согласно которому органы власти публикуют собственные геопространственные стратегии [4].

На что ещё можно обратить внимание в новой стратегии? На большое число упоминаемых областей применения, от цифровых двойников городов до автономного транспорта.

Все эти примеры - это ответ на вопрос о том зачем нужны качественные открытые геоданные.


Ссылки:
[1] https://www.fgdc.gov/nsdi-plan/NSDI2035
[2] https://www.fgdc.gov/nsdi-plan/nsdi-strategic-plan-2021-2024.pdf
[3] https://www.fgdc.gov/gda
[4] https://www.fgdc.gov/gda/most-recent-gda-covered-agency-plans-and-reports

#opendata #policy #geodata #usa #strategies #government
Я, кстати, поначалу не обратил внимание, а на сайте Пр-ва РФ то есть появилась в феврале страница Основные показатели и мероприятия национального проекта «Экономика данных и цифровая трансформация государства» [1] и там, собственно, показатели и есть.

Показателей много, разных, какие-то мне лично нравятся, какие-то категорически не нравятся. Но об этом как-нибудь в другой раз. А вот показатель доступности 500 датасетов вызывает, честно говоря, смех.

Число 500 актуально только если это так называемые high-value datasets, термин есть в законах Евросоюза, но нет ничего в российских НПА. Это когда данные особо ценные, когда известно какие это данные и дорожная карта по их публикации. Хорошая штука, когда осмысленна.

А просто 500 наборов я лично могу собрать из разного мусора за день, а из хороших данных за месяц.

На закрытом портале data.gov.ru было около 20 тысяч датасетов (хреновых, но количество же тут), на портале открытых данных Москвы около 800 датасетов и так далее.

В общем это даже не низковисящие плоды, а не пойми что.

И тут, в который раз, не могу не отметить значительную закрытость этого Пр-ва по сравнению с предыдущими. Причём это вопрос не 2022 года, а гораздо более ранний. Года с 2020 если не раньше. Почти по всем нац проектам материалы доступны в пресс релизах, выступлениях и, с огромными задержками или совсем недоступны, содержательные документы.

У меня уже много лет нет рабочей необходимости копаться в структуре госрасходов, мероприятиях и контрактах и показателях результативности гос-ва. Но не отмечать очевидное тут сложно.

Ссылки:
[1] http://government.ru/info/54314/

#opendata #government #russia #spending
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.

Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а

Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.

Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.

Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml

#opensource #government #standards
Полезные ссылки про данные, технологии и не только:

AI & Science

- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.

Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.

Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).

Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/

#opendata #opensource #openaccess #ai #science #government #data
Государство как API становится доктриной когда к власти приходят предприниматели вроде Илона Маска. DOGE, Департамент по государственной эффективности, выложили API [1] по доступу к данным госконтрактов, грантов и иных госрасходов. Оно доступно в виде спецификации OpenAPI [2] и к нему уже неофициальный инструмент по получению данных в CSV [3]

А совсем недавно была информация о том что Palantir помогает налоговой службе США по созданию "мега API" [4] для работы с налоговыми данными.

С инженерной точки зрения кому-то очень повезло поработать над большим интересным технически сложным проектом на данных, а с человеческой, больше интеграции госданных = больше полицейского гос-ва.

Хорошо или плохо странам где технократы не смогут прийти к власти ?

Ссылки:
[1] https://winbuzzer.com/2025/04/27/new-doge-api-download-tool-lets-you-save-and-analyze-government-spending-data-in-excel-xcxwbn/
[2] https://api.doge.gov/docs#/
[3] https://dogedownloadtool.pages.dev/
[4] https://www.wired.com/story/palantir-doge-irs-mega-api-data/

#opendata #api #usa #government #spending