Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого есть ещё одна немаловажная причина.

Из России и большей части развивающихся стран это мало заметно, а в развивающихся - это просто таки очевидно что темы геоданных и научных данных просто таки поглощают тему открытых данных.

Как и почему это происходит?

Причин несколько:
1. Для геоданных наиболее просто доказывпаь экономическую эффективность. Если их закрыть даже на время,то от этого гарантированно многие пострадают и у них есть большой пул пользователей. Иначе говоря - они доказано нужны.
2. Существовавшие порталы и ПО этого почти не учитывали. Продукты вроде CKAN или Socrata были сконцентрированы вокруг сохранения, харвестинга, метаданных вокруг данных любого типа, без визуализации геоданных, без учёта их разнообразия и специфики
3. На рынок вышла компания Esri с их ArcGIS Hub и портал открытых данных или портал геоданных как сервис. В США они ещё несколько лет назад прошли все комплаенс проверки FedRAMP [2], в результате при госзаказе им гораздо легче выиграть создание любого облачного сервиса
4. Для геоданных в развивающихся странах и странах где экономят деньги стали очень популярны продукты вроде Geonetwork и GeoNode. И там, и там предусмотрено ведение каталога данных. Geonetwork гораздо лучше адаптирован для хранения данных особо большого размера и, на самом деле, Geonetwork был и остаётся конкурентом не только геосервисов, но и каталогов открытых данных в которых ранее хранились геоданные.

В результате сейчас ситуация такова что наборов геоданных не просто количественно больше чем всех остальных доступных данных, но и, например, Esri заменили своим ArcGIS Hub значительную часть порталов открытых данных или продали стоящий рядом портал геоданных в отдельных штатах США ( DC, NE , CT) и ещё больше внедрений в отдельных городах, они довольно успешно конкурируют с Socrata, основным игроком создания госпорталов данных в США.

Про Geonetwork я много раз писал, по сути в рамках программы INSPIRE почти все страны ЕС развернули именно этот софт для интеграции геоданных и его всё больше по другим странам, причём нигде списка всех инсталляций нет, хотя их реально где-то 100+, с большим числом наборов данных там опубликованных.

И это только про геоданные, другая сторона открытости данных в том что наиболее устойчивыми их потребителями оказались исследователи. Конечно есть разработчики использующие API или большие выгрузки, аналитики и тд., но концептуальные замечания и массовость употребления исследователями происходит ещё и от того что что большая часть больших научных данных финансируется гос-вом, и сочетание требований по обязательной их публикации и расширению их использования привело к тому что научные данные составляют существенную их часть.

Я упоминал несколько раз о том что публикуется в США на портале data.gov. Так вот там не 3/4 данных - это геоданные (193 тысячи наборов данных из 257 тысяч), в значительной степени произведённых научными учреждениями NASA, USGS, NOAA, И это при том что data.gov пока не индексирует крупные научные репозитории данных вроде Harvard Dataverse в США и ещё довольно многие.

Поэтому хотя и открытые данные оставались и остаются важным инструментом открытости государства, естественных монополий и тд., сильный фокус последних лет на очень практических областях, таких как я сейчас пишу.

#opendata #datasets #usa #datacatalogs #geodata