Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
данные переписи как фундамент общественных проектов в инициативе президента США The Opportunity Project http://opportunity.census.gov/

Подробнее в видео Белого дома https://www.youtube.com/watch?v=rwES25_sL0E и публикации https://www.whitehouse.gov/the-press-office/2016/03/07/fact-sheet-white-house-launches-opportunity-project-utilizing-open-data

Там уже есть с десяток проектов и скоро явно будет больше. Все посвящённые гиперлокальным данным.

Как получается что граждане создают такие проекты? Как им это удаётся?

Например, одна из причин в появлении CitySDK https://uscensusbureau.github.io/citysdk/

специального ПО для работы с геоданными и использующем Census API (программный интерфейс для доступа к данным переписи).

Вдогонку:
- репозитории открытого кода бюро переписи США https://github.com/uscensusbureau
- API бюро переписи США http://www.census.gov/developers/

Возможно ли подобное в России? А на этот вопрос предлагаю каждому ответить для себя самостоятельно.


#opendata #opengov #census
В открытом доступе появился препринт замечательной книжки Analyzing US Census Data: Methods, Maps, and Models in R [1] о том как обрабатывать данные переписи населения США с помощью языка R. Автор книги, Kyle Walker, создатель библиотеки tidycensus [2] для языка R для упрощения работы с данными переписи.

Книга чрезвычайно прикладная, со скриншотами ГИС систем и систем переписи населения, часто в стиле "откройте страницу (вот скриншот), нажмите туда, нажмите сюда, скачайте результат" и конечно же книга про эту библиотеку tidycensus и как с её помощью с данными переписи работать.

Здесь надо отметить что в США вокруг переписи населения выстроена довольно большая, как теперь говорят, экосистема. Чтобы работать с их данными необходимо получить ключ, просто зарегистрировавшись [3] и там же у US Census Bureau на сайте большой раздел для разработчиков [4] с руководствами, примерами, каталогом API, публичным форумом [5], чатом в слаке, рассылкой и так далее.


Ссылки:
[1] https://walker-data.com/census-r/
[2] https://github.com/walkerke/tidycensus
[3] https://api.census.gov/data/key_signup.html
[4] https://www.census.gov/data/developers.html
[5] https://gitter.im/uscensusbureau/home

#opendata #data #census #us
В Север.Реалии статья о реалиях прохождения переписи населения, "Цена таким данным нулевая". Фальсификации при переписи населения [1], на ту же темы в Deutsche Welle Всероссийская перепись населения: чем опасна фальсификация данных [2] и выступление Натальи Зубаревич на Эхо Москвы [3].

Перепись у нас в стране очень политизирована, в ней выражается многое, и замороженные национальные конфликты [4] и общей уровень недоверия государству граждан и ещё много чего.

Но в чем права Наталья Зубаревич и экономисты и демографы так в том что данные переписи необходимы, насколько возможно качественные, насколько возможно подробные, насколько возможно локализованные, но анонимизированные. Да, государство и так владеет базами данных о граждан в виде данных в ФНС, в Пенсионном фонде, в ФСС, в ФОМС, а также базы данных SIM карт и передвижения есть у сотовых операторов и ещё у ряда коммерческиз и государственных структур есть разной степени актуальности, полноты и достоверности базы данных.

Перепись - это один из немногих дата-продуктов государства который хотя бы частично предоставляется исследователям, бизнесу и самим гражданам в виде аналитики, официальной статистики и иных срезов данных.

Поэтому то что граждане не доверяют переписчикам, то перепись охватывает не всё, это, конечно, скорее трагедия для всех кто потом эти данные будет использовать при принятии решений и мне не хочется злорадствовать в стиле "опять ничего не получается". Да лучше бы получалось и лучше бы в российские данные были доступны с раскрытием до муниципалитета и переписного участка, например, как в Австралии [5] или США и в других странах доступны данных до уровне блока (block level).

Ссылки:
[1] https://www.severreal.org/a/tsena-takim-dannym-nulevaya-falsifikatsii-pri-perepisi-naseleniya/31557044.html
[2] https://www.dw.com/ru/perepis-naselenija-rossii-chem-opasna-falsifikacija-dannyh/a-59801766?maca=rus-yandex_new_politics_mm-9641-xml
[3] https://echo.msk.ru/programs/personalno/2926988-echo/
[4] https://kazan.mk.ru/social/2021/11/11/ilnar-garifullin-po-tatarskim-rayonam-bashkortostana-ezdyat-bashkirskie-agitbrigady.html
[5] https://www.abs.gov.au/census/find-census-data

#opendata #data #census
Инструмент того как можно / нужно и хорошо визуализировать статистику переписи и иную гиперлокальную статистику. Census Maps [1] от статистической службы Великобритании отображает данные максимально гиперлокальным образом, с подсветкой кварталов и с детализацией по региону происхождения, по числу членов семьи, по доле мигрантов и многое другое.

Пока проект в режиме бета, там только индикаторы связанные с населением, но даже так выглядит более чем интересно.

Всё это результаты переписи 2021 года. Также по ней есть публичный план публикации свежих данных [2]

Отдельно можно поговорить почему подобное невозможно или очень и очень сложно сделать для России. А прежде чем поговорить, сделаю ка я опрос. Он будет следующим постом.

Ссылки:
[1] https://www.ons.gov.uk/census/maps
[2] https://census.gov.uk/census-2021-results/phase-one-topic-summaries

#data #opendata #census #uk #statistics
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․

В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.

Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.

На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.

Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].

Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/

#opendata #datasets #uk #census
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского бассейна (ECLAC), специализированном подразделении ООН. На сайте продукта собраны и ссылки все опубликованные переписи населения и иные опросы в 24 странах [2], а также примеры микроданных [3].


Ссылки:
[1] https://www.redatam.org/en
[2] https://www.redatam.org/en/online-process
[3] https://www.redatam.org/en/microdata

#opendata #census #datasets #datacatalogs
В рубрике интересных наборов данных проект Census Tree [1] как результат работы группы исследователей по сопоставлению данных переписей США с 1870 по 1940 годы и созданию наборов данных связей между людьми. Причём искали их создавая специальный алгоритм сопоставления и используя генеалогические базы данных. Уникально и то что в США существуют открытые микроданные переписей начиная с 1790 года [2] и то что исследователи могут с этим работать.

Результаты представлены в виде коллекции наборов данных [3] сопоставлений связей между двумя переписями. Наборы данных включают файлы от нескольких мегабайт до нескольких гигабайт, но для выгрузки нужна регистрация на OpenICPSR [4].

Данные доступны в формате CSV под лицензией CC-BY 4.0

Ссылки:
[1] https://www.censustree.org
[2] https://usa.ipums.org/usa/full_count.shtml
[3] https://www.censustree.org/data
[4] https://www.openicpsr.org

#opendata #usa #census #sociology #datasets
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.

Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.

Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020

#russia #closeddata #data #opendata #census #rosstat