Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого есть ещё одна немаловажная причина.

Из России и большей части развивающихся стран это мало заметно, а в развивающихся - это просто таки очевидно что темы геоданных и научных данных просто таки поглощают тему открытых данных.

Как и почему это происходит?

Причин несколько:
1. Для геоданных наиболее просто доказывпаь экономическую эффективность. Если их закрыть даже на время,то от этого гарантированно многие пострадают и у них есть большой пул пользователей. Иначе говоря - они доказано нужны.
2. Существовавшие порталы и ПО этого почти не учитывали. Продукты вроде CKAN или Socrata были сконцентрированы вокруг сохранения, харвестинга, метаданных вокруг данных любого типа, без визуализации геоданных, без учёта их разнообразия и специфики
3. На рынок вышла компания Esri с их ArcGIS Hub и портал открытых данных или портал геоданных как сервис. В США они ещё несколько лет назад прошли все комплаенс проверки FedRAMP [2], в результате при госзаказе им гораздо легче выиграть создание любого облачного сервиса
4. Для геоданных в развивающихся странах и странах где экономят деньги стали очень популярны продукты вроде Geonetwork и GeoNode. И там, и там предусмотрено ведение каталога данных. Geonetwork гораздо лучше адаптирован для хранения данных особо большого размера и, на самом деле, Geonetwork был и остаётся конкурентом не только геосервисов, но и каталогов открытых данных в которых ранее хранились геоданные.

В результате сейчас ситуация такова что наборов геоданных не просто количественно больше чем всех остальных доступных данных, но и, например, Esri заменили своим ArcGIS Hub значительную часть порталов открытых данных или продали стоящий рядом портал геоданных в отдельных штатах США ( DC, NE , CT) и ещё больше внедрений в отдельных городах, они довольно успешно конкурируют с Socrata, основным игроком создания госпорталов данных в США.

Про Geonetwork я много раз писал, по сути в рамках программы INSPIRE почти все страны ЕС развернули именно этот софт для интеграции геоданных и его всё больше по другим странам, причём нигде списка всех инсталляций нет, хотя их реально где-то 100+, с большим числом наборов данных там опубликованных.

И это только про геоданные, другая сторона открытости данных в том что наиболее устойчивыми их потребителями оказались исследователи. Конечно есть разработчики использующие API или большие выгрузки, аналитики и тд., но концептуальные замечания и массовость употребления исследователями происходит ещё и от того что что большая часть больших научных данных финансируется гос-вом, и сочетание требований по обязательной их публикации и расширению их использования привело к тому что научные данные составляют существенную их часть.

Я упоминал несколько раз о том что публикуется в США на портале data.gov. Так вот там не 3/4 данных - это геоданные (193 тысячи наборов данных из 257 тысяч), в значительной степени произведённых научными учреждениями NASA, USGS, NOAA, И это при том что data.gov пока не индексирует крупные научные репозитории данных вроде Harvard Dataverse в США и ещё довольно многие.

Поэтому хотя и открытые данные оставались и остаются важным инструментом открытости государства, естественных монополий и тд., сильный фокус последних лет на очень практических областях, таких как я сейчас пишу.

#opendata #datasets #usa #datacatalogs #geodata
Практически незаметно прошла новость о том что администрация Байдена вернулась к практике публикации информации о посетителях Белого дома [1]. Эта практика была среди инициатив Барака Обамы, но после того как президентом США стал Дональд Трамп эти данные не публиковали. И вот в мае 2023 года данные вновь публикуются. Больших данных там нет, всего лишь 514 тысяч записей логов о посетителях [2], тем не менее это важная практика для обеспечения прозрачности исполнительной власти в целом и лоббизма в частности.

Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/

#opendata #datasets #data #usa