Ivan Begtin
9.02K subscribers
2.63K photos
5 videos
114 files
5.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В Бразилии местное отделение Open Knowledge Foundation запустило индекс открытости городов проанализировав доступность данных по 15 группам в 26 городах, столицах регионов. Результат ожидаемый - кроме Сан Пауло и Бело Хоризонте в большинстве городов открытости маловато.

При этом есть параллели с РФ, высокий уровень доступности данных о городских бюджетах и низкая доступность данных о нормативных документах.

Такой рейтинг полезен в странах где на федеральном уровне инициатива по открытости данных активна. К примеру, в РФ сделать такое сравнение реалистично, но необходимость совершенно неочевидна. А в Армении даже просто сделать такую оценку, но Армения унитарная страна, если сравнивать марзы, а если города, то они невелики. Но сделать такое можно, в том числе, потому что открыт код проекта.

#opendata #brazil #opengov #okfn
👍4
Я довольно давно думаю о разных возможностях и подходах в удешевлении создания машиночитаемых/структурированных данных из неструктурированных потому что задача создания качественных датасетов из всякого мусора неструктурированных присутствует давно и до конца никем не решена, но есть некоторые приближения.

И здесь можно вспомнить как создавались первые порталы открытых данных в мире. В основном путём закачки на них большого объёма статистики и табличных файлов из банков документов госорганов.

Почему так? Потому что переводя смысл существования государственных порталов данных на современный язык - он заключается в том чтобы обеспечивать доступ к дата продуктам госорганов для профессионалов и общественности. Дата продукты бывают проработанные, изначально с машиночитаемыми данными или API, а бывают, скажем так не осознаваемые как дата продукты. И вот последние являются, чаще всего, частью публикационной активности, они выкладываются как документы, в лучшей форме как Excel, в худшей как сканы.

Между этими крайностями есть много промежуточных вариантов: в виде файлов MS Word, в PDF документах и так далее.

При этом из Excel файлов таблицы выделяются естественным образом, из MS Word с небольшими усилиями, из PDF уже сложнее, нужна человеческая валидация, но всё это возможно и всё это автоматизируемо.

Так вот, как можно было бы создать быстро портал открытых данных из таких продуктов? Давайте я приведу в пример Минфин России. На его сайте в разделе Документы размещено 29 594 документов. Из которых только 45% 12 349 - это PDF файлы,а всё остальное - это XLS, XLSX, DOC, DOCX и ZIP файлы. При этом в ZIP файлах, как правило, десятки DOC/DOCX/XLSX файлов (не PDF).

Весь этот банк документов буквально за короткий срок превращается в банк открытых данных. Не идеальных, не самых востребованных, но куда более полезных чем даже публиковалось на портале data.gov.ru до его исчезновения.

Разумеется это только один из примеров. Точно также можно превратить в банк данных документы Минфина Казахстана или Минфина Армении.

И так справедливо в отношении большей части госорганов. Особенно в отношении статистических служб, министерств финансов и налоговых служб. Для таких задач я когда-то делал простую утилитку по извлечению таблиц из .docx файлов - docx2csv.

Можно ли сейчас создать таким образом десятки и сотни тысяч датасетов? Конечно же можно

#opendata #opengov #datasets #data
👍10💯6
А я тут раскопал свои самые первые презентации что я делал для публичных выступлений, датированные 2008-2009 годами и понял что за эти годы немного прокачал навыки их подготовки.

Но занимаюсь примерно тем же самым все эти годы, с той лишь разницей что в жизни стало меньше гражданских технологий (civic tech) и больше дата инженерии. За эти годы data.gov.ru помер и, к счастью, я к нему отношения не имел.

Проект OpenGovData переродился в Хаб открытых данных, РосГосЗатраты стали Госзатратами, а многие другие проекты и продукты были созданы и часть даже живо до сих пор.

#opendata #opengov #presentations #flashback
👍9👏4
Свежие тенденции госинноваций из последнего отчета ОЭСР [1]:
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности

Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.

Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.

И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.

По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.

А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.

Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/

#opendata #opengov #data #oecd #government #innovation
17👍2
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.

1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.

2. Больше данных городов и муниципалитетов
. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.

3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.

4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)

5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.

6. Расширение вклада биг техов в открытость данных.
Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.

7. Усиление движения открытого доступа (Open Access).
Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.

8. Сложность восприятия ИИ среди open data активистов
. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.

#opendata #opengov #data #thoughts
1113👍1
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
👍103
В рубрике интересных открытых данных проект The Data Liberation Project [1] создан командой НКО MuckRock [2] в США и содержит наборы данных которые они каким-либо способом получили, очистили, переформатировали и подготовили. В основном это данные интересные для журналистов и на которые благодаря их работе можно сослаться. Например, там есть датасет по использованию воды [3] из реестра USGS или база жалоб заключенных [4].

Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.

Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].

Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.

Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/

#opendata #opengov #digitalpreservation
2
Вчера и сегодня провожу время на Open Data Day в Армении, вчера у нас был день посвящённый дата журналистике, визуализации и награждению участников конкурса, а сегодня мастер-классы по качеству данных на примере данных проекта Dateno и мастер класс по работе с культурными данными связанными с Арменией.

Про культурные данные в Армении - это гораздо сложнее чем во многих странах поскольку значительное число артефактов истории и культуры связанные с Арменией рассеяны по разным странам и чаще доступны не из Армении, а в Европе, России, Австралии и других странах.

#opendata #opengov #armenia
👍10❤‍🔥5
Интересная свежая статья в Journal of Democracy под названием Delivering Democracy. Why Results matter? [1], на русском языке она прозвучала была с двояким смыслом "Доставляя демократию. Почему результаты имеют значение?". Доставляя как: гуманитарными или военными самолётами? Но здесь речь о классическом понимании provide (предоставлять). Среди авторов статьи Френсис Фукуяма что ещё одна причина её почитать.

Если коротко, то основная идея в том что Демократия не может быть основана только на идеалах. Граждане хотят результатов: работы, безопасности, услуг. Мысль не то чтобы новая, но предельно коротко и точно изложенная именно в этой статье и то что ситуации когда в демократических странах идут долгие экономические кризисы то возникают и кризисы восприятия демократии и наоборот и есть бесспорные экономические успехи в авторитарных странах.

Я, также, ранее не встречал термина performance legitimacy, он есть в предыдущей статье Бена Кросса, Performance Legitimacy for Realists [2] одного из соавторов. Это термин применяемый к восточно-азиатским странам и его можно описать так

Легитимность на основе эффективности (или performance legitimacy) — это концепция, согласно которой власть обосновывает своё право на управление через успешное выполнение задач, направленных на улучшение жизни граждан, а не через традиционные или демократические источники легитимности. Этот подход основывается на достижении положительных материальных результатов, таких как экономический рост, снижение уровня бедности и повышение качества жизни населения.

И, кстати, он применим не только к восточно-азиатским странам, многие авторитарные страны в мире идут тем же путём. И это не худшая форма авторитаризма, конечно,.

Ключевое в статье - это акцент на том как перезапустить демократии чтобы они тоже могли доставлять не хуже авторитарных режимов и, честно говоря, ответов там мало. Я увидел один базовый тезис - лучше управляйте экономикой и его расширение эффективнее развивайте инфраструктуру.

Всё это, конечно, к технологической инфраструктуре и цифровым сервисам имеет прямое отношение. У демократических государств гораздо больше барьеров в их реализации. Авторитаризм имеющие большие экономические ресурсы может быть весьма эффективен. Как демократиям научиться доставлять в этой области - вот в чём вопрос.

Ссылки:
[1] https://muse.jhu.edu/pub/1/article/954557
[2] https://muse.jhu.edu/pub/5/article/918473

#opengov #data tech #thoughts #democracy #digitalservices
👍76🔥4😁1
Я про политику и макрополитику в особенности не пишу давно и особо писать об этом не планирую ибо слишком много срани неприличного там происходит повсеместно, но есть и то что затрагивает вопросы открытости. Например, свежая новость что США выходят из 66 международных организаций и международных групп включая 31 группу и структуру ООН включая UN Oceans, UN Population Fund, UN Water, UN Energy, Department of Economic and Social Affairs (DESA) и многих других.

Последствия могут быть весьма разнообразны, учитывая что выход США практически наверняка означает потерю существенного финансирования ООН, но не менее важно и то что многие структуры ООН создают и распространяют данные используемые по всему. миру. Например, DESA ведёт data.un.org портал официальной статистики.

Что будет со многими международными инициативами про данные на базе ООН в 2026 году? Я вот не знаю, похоже что надо отслеживать эту ситуацию.

Другой аспект в структурах из которых США пока формально не вышли, но перестали финансировать. Формально США всё еще участвуют в Open Government Partnership, а де факто с января 2025 года они перестали финансировать эту организацию и НКО внутри США ещё в марте 2025 года писали письмо в OGP о том чтобы провести ревизию обязательств Правительства США по открытости.

По поводу OGP я уже вижу что там гораздо большую роль сейчас играют страны ЕС и врядли сама инициатива закроется, скорее превратится в инструмент распространения европейских ценностей.

В любом случае вот эта вот разборка мирового порядка затрагивает многое и не только отношения между странами, но и доступность данных. К примеру, если торговый конфликт между ЕС и США и другие конфликты начнут развиваться то многие страны начнут закрывать информацию о себе. Такое уже происходит во многих идущих военных и не-военных конфликтах и будет продолжаться.

Хочется тут сделать какой-то хороший вывод или мораль, но ничего на ум не приходит. Мир меняется, может и не к лучшему, но к чему-то другому.

#opendata #opengov #thoughts #international #usa
😢15👍3🤔1💔1
Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR

Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все

В основном участники там - это университеты США входящие в ICPSR.

Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week

Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия


#opendata #opengov #events
👍11🔥4
В предверии дней открытых данных которые начнутся в мире с 7 марта, мне бы хотелось сказать что-то положительное про открытость данных в контексте гос-ва в России, но позитива мало, негатива много.

Я лишь напомню про тренды последних лет, которые не изменились:
1. Региональные порталы открытых данных постепенно устаревают и закрыватся. Портал открытых данных СПб не обновлялся с 2021 г., портал ОД Москвы выключен последние 2 недели, в других регионах порталы данных или уже не работают, или содержат минимум сведений, или сведения все не обновляются от 3 до 10 лет.
2. Федеральный портал data.gov.ru хоть и заработал, но бессмысленнен по своей природе поскольку агрегирует те самые устаревшие датасеты с региональных порталов и на нем нет никаких значимых наборов данных.
3. Официальная статистическая информация всё активнее закрывается и исчезает из открытого доступа.
4. Негосударственные активности по созданию открытых данных получили множество ограничений:
- создание наборов данных на аудиторию журналистов и общественников стало опасным из-за массового признания их иноагентами
- создание наборов данных для бизнеса не понятно зачем кому-либо создавать их открытыми кроме как государство официально. Резонное мнение что бизнес если не получает открытые данные из первоисточника, то способен оплатить их
- аналогично с наборами данных для ИИ. Они востребованы, но для большинства общественной активности в мире по этой теме падает мотивация поскольку видны огромные доходы ИИ бигтеха на общественной, в общем-то, работе. В России ситуация аналогичная.

Ну вот и у меня получается обзор в стиле списка проблем и позитива мало. Более-менее что-то позитивное возможно в части доступа исследователей к данным и в части данных в гуманитарных науках и культуре. Первое - это естественная потребность во всех странах где ещё есть живая наука, второе осложнено скорее почти полным отсутствием средств, а не отсутствием людей.

Тем временем в мире проходит порядка 87 небольших мероприятий Дня открытых данных с 7 по 13 марта https://opendataday.org/ большая их часть это митапы сообществ, но есть и несколько больших виртуальных событий на которых есть что послушать.

#opendata #opengov
4🤔4👍1🔥1
Zero-Click Government (Без-кликовое правительство) свежая книга от одноименной институции Zero-click government institute основанным Gustavo Moreira Maia основателем бразильского govtech стартапа Colab про коммуникацию граждан и госорганов. Книга, по сути, про проактивные госуслуги и проактивную бюрократию. Примеров у них на сайте и, как я понимаю, в книге довольно много и в разных странах. С сильным искажением в сторону опыта который им доступен - англо и испаноязычного потому что такие же проактивные услуги есть и в Восточной Азии, и в Центральной Азии, и в РФ. Разве что в Африке и арабских странах пока маловато или просто знают об этом не все.

Книга пока не опубликована, можно подписаться на уведомление о ней. В моем представлении Без-кликовое правительство/государство - это еще одна попытка придумать маркетинговое название для государства углубленного цифрового патернализма. В РФ на уровне пр-ва это называют "Государство для людей", в других странах иначе.

Собственно выходя за рамки позитивной повестки проблема в том что проактивное государство - не всегда позитивное. И вопрос области применения этой проактивности. Проактивность в автоматическом предоставлении льгот и налоговых вычетов или проактивность в раздаче цифровых повесток и мобилизации?

В любом случае материалы на эту темы интересны и буду эту книжку заказывать когда она выйдет.

#opengov #readings
👍8💯4❤‍🔥2