Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В качестве примера раскрытия кода алгоритмических систем, в Великобритании команда портала GOV.UK опубликовали код рекомендационной системы [1], той, которая на портале, выдаёт список страниц которые ещё могут быть интересны пользователю. На сайте это выглядит как Related content об этом команда пишет в блоге [2] и про раскрытие информации по стандарту алгоритмической открытости [3].

Конечно, рекомендательная система имеет не такое значение как скоринговые системы или системы распознавания образов или системы отслеживания поведения граждан и тд. Они всего лишь рекомендуют, но добровольное раскрытие кода даже таких систем - это важный шаг в постепенной открытости алгоритмов и работы ИИ в будущем.

А в данном случае ещё и интересно почитать технические подробности реализации [4]

Ссылки:
[1] https://github.com/alphagov/govuk-related-links-recommender
[2] https://insidegovuk.blog.gov.uk/2022/07/04/opening-up-our-code-and-logic-for-algorithmic-decision-making/
[3] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[4] https://apolitical.co/solution-articles/en/machine-learning-government-algorithm

#opensource #ai #transparency #government #uk
В Великобритании Министерство юстиции (российский аналог - Министерство внутренних дел) анонсировало [1] подготовку стратегии по работе с данными, data strategy, которую пока описали одним слайдом из 3 пунктов на этом же слайде.

Обещают вскоре в блоге опубликовать саму стратегию, очень будет интересно её почитать. Я коллекционирую документы дата-стратегий и цифровых стратегий, хочется надеяться что этот будет полезным.

Ссылки:
[1] https://mojdigital.blog.gov.uk/2022/08/30/becoming-a-truly-data-led-justice-system/

#opendata #data #uk #datastrategies
В Великобритании запустили свежий портал открытых данных, на сей раз по теме планирования и управления территориями, planning.data.gov.uk [1].

В отличие от файлов/классических порталов открытых данных он написан с нуля и его код открыт [2] и все загруженные в него данные доступны изначально в структурированных унифицированных форматах, с полным описанием входящих таблиц которые сейчас отдают в форматах JSON и CSV и API, а обещают ещё и добавить экспорт в формат data packages и GeoJSON. У проекта есть дорожная карта [3] где обещано это и новые данные.

На что стоит обратить внимание:
1. Это портал открытых данных создаваемый с чётким пониманием того как данные будут использоваться.
2. Структурированное представление данных похоже на то что мы делаем в проекте Datacrafter.ru [4] и ещё ряде продуктов. Не просто файло-помойка данных, а хорошо подготовленные данные.


Ссылки:
[1] https://www.planning.data.gov.uk/
[2] https://github.com/digital-land/digital-land.info
[3] https://www.planning.data.gov.uk/about/roadmap
[4] https://datacrafter.ru

#opendata #uk #planning #housing #datacatalogs
Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.

Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.

Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]

Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.

Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries

#data #opendata #census #uk #statistics
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․

В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.

Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.

На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.

Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].

Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/

#opendata #datasets #uk #census
В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]

- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.

- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.

Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8

#readings #data #dataengineering #uk #government
В Великобритании Центральный офис по цифре и данным анонсировал появление Data Maturity Assessment for Government (DMA) [1] руководство по оценке дата-зрелости органов власти и государственных организаций. Подробный документ с критериями уровней зрелости по 97 пунктам.

Там, конечно, есть и про открытые данные, но важнее не это а блок Topic 9: Setting your data direction в котором по умолчанию принимается что у организации есть стратегия работы с данными и далее лишь вопрос качества этой стратегии и коммуникации.

Что характерно в России ни на национальном уровне, ни на уровне отдельных органов и правительств субъектов федерации таких стратегий нет. Поэтому оценка по уровням зрелости будет невысокой.

А вот для многих постсоветских стран ещё раздумывающих над созданием офисов по цифре и данным стоит обратить внимание на этот документ, по сути он является руководством о том как системно организуется работа с данными в госсекторе.

Ссылки:
[1] https://cddo.blog.gov.uk/2023/03/27/strengthening-outcomes-for-the-public-through-better-data-maturity/
[2] https://www.gov.uk/government/publications/data-maturity-assessment-for-government-framework/data-maturity-assessment-for-government-framework-html

#opendata #data #government #regulation #policies #uk
Тем временем в Великобритании Правительство закрывает проект по цифровой закупке продуктов [1] в рамках Digital Marketplace. Многие из тех кто продавали таким образом госструктурам ПО и услуги считают что это большой шаг назад [2]. Мне вот не удалось найти объяснения этого шага, он выглядит довольно странно со стороны.

В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.

Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ

#government #uk #procurement #digital
В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.

Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов

Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании

В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.

Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl

#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
В рубрике как это устроено у них общественный портал открытых данных Шотландии Open Data Scotland [1] создан сообществом активистов в Шотландии в рамках проекта OD_BODS и включает описание 1887 наборов данных собранных из пары десятков источников данных. Особенность Шотландии в том что региональные власти до сих пор не создали портал открытых данных при том что их много на муниципальном уровне, у отдельных органов власти и у местных университетов. Активисты решили сделать такой портал самостоятельно и, что интересно, не поленились написать сборщики данных (харвестеры) для почти всех порталов данных и собирают данные автоматически.

Из интересного, на портале реализован довольно полезный раздел аналитики [2].

Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.

Всё это о том что не надо ждать милости от природы когда власти вашей страны/региона/города решат создать портал открытых данных, его всегда можно создать самостоятельно. По крайней мере в тех странах где есть хоть какие-то данные.

Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland

#opendata #datasets #uk #scotland