Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
99 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)

Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.


Ссылки:
[1] https://open.usa.gov/national-action-plan/5/

#opendata #usa #policies
Федеральная торговая комиссия в США оштрафовала компанию BetterHelp на $7.8 миллонов, создателей одноимённого мобильного для мониторинга здоровья и рекомендаций за то что те врали потребителей о том что не передают их данные, а сами передавали их рекламным компаниям вроде Facebook, Pinterest, Criteo, Snapchat [1]. Штраф пойдет на компенсацию пользователям пострадавшим с 2017 по 2020 год.

Решение символическое, первое такого рода и думаю что не последнее. Однако не могу не обратить внимание что рынок продавца не существует без рынка покупателя. Это как проституция не существует если на неё нет спроса.

А не должны ли были покупатели этих данных в лице перечисленных ранее компаний проводить полную проверку источника покупки? Не должна ли комиссия по ценным бумагам проверить и их и выписать им многократно большие штрафы? Ведь не покупай они эти данные, их бы и не продавали.

Ссылки:
[1] https://www.ftc.gov/news-events/news/press-releases/2023/03/ftc-ban-betterhelp-revealing-consumers-data-including-sensitive-mental-health-information-facebook

#privacy #usa #mobileapps
В рубрике как это работает у них GeoPlatform.gov [1] единая платформа федеральных властей США по работе с геоданными, удобному поиску данных для учёных, разработчиков, аналитиков и тд.

Включает более115 тысяч записей о метаданных наборов геоданных из нескольких сотен государственных источников данных федеральных служб.

Важные особенности платформы на которые стоит обратить внимание։
- совмещение портала геоданных и портала научных данных, акцент на принципах FAIR
- использование портала Data.gov как базовой инфраструктуры. В GeoPlatform.gov выгружаются метаданные только тех наборов данных что загружены в Data.gov
- интеграция с ArcGIS для отображения данных (это вообще в США популярно использовать ArcGIS, а вот европейцы предпочитают OSM)
- наличие работающей стратегии развития этой платформы․ Называется National Spatial Data Infrastructure (NSDI) Strategic Plan [2]

Интересно расширят ли они проект до геоданных уровня штатов и городов, тогда число наборов данных может превысить миллионы количественно и очень много по физическому объёму, впрочем в самой гео платформе ничего не хранится кроме поискового индекса.

Это из тех проектов которые можно относить к проектам по поиску и обнаружению данных data search and discovery, причём сделанному довольно неплохо.

Ссылки:
[1] https://www.geoplatform.gov/
[2] https://www.fgdc.gov/nsdi-plan/index_html

#opendata #geodata #usa #datasets
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого есть ещё одна немаловажная причина.

Из России и большей части развивающихся стран это мало заметно, а в развивающихся - это просто таки очевидно что темы геоданных и научных данных просто таки поглощают тему открытых данных.

Как и почему это происходит?

Причин несколько:
1. Для геоданных наиболее просто доказывпаь экономическую эффективность. Если их закрыть даже на время,то от этого гарантированно многие пострадают и у них есть большой пул пользователей. Иначе говоря - они доказано нужны.
2. Существовавшие порталы и ПО этого почти не учитывали. Продукты вроде CKAN или Socrata были сконцентрированы вокруг сохранения, харвестинга, метаданных вокруг данных любого типа, без визуализации геоданных, без учёта их разнообразия и специфики
3. На рынок вышла компания Esri с их ArcGIS Hub и портал открытых данных или портал геоданных как сервис. В США они ещё несколько лет назад прошли все комплаенс проверки FedRAMP [2], в результате при госзаказе им гораздо легче выиграть создание любого облачного сервиса
4. Для геоданных в развивающихся странах и странах где экономят деньги стали очень популярны продукты вроде Geonetwork и GeoNode. И там, и там предусмотрено ведение каталога данных. Geonetwork гораздо лучше адаптирован для хранения данных особо большого размера и, на самом деле, Geonetwork был и остаётся конкурентом не только геосервисов, но и каталогов открытых данных в которых ранее хранились геоданные.

В результате сейчас ситуация такова что наборов геоданных не просто количественно больше чем всех остальных доступных данных, но и, например, Esri заменили своим ArcGIS Hub значительную часть порталов открытых данных или продали стоящий рядом портал геоданных в отдельных штатах США ( DC, NE , CT) и ещё больше внедрений в отдельных городах, они довольно успешно конкурируют с Socrata, основным игроком создания госпорталов данных в США.

Про Geonetwork я много раз писал, по сути в рамках программы INSPIRE почти все страны ЕС развернули именно этот софт для интеграции геоданных и его всё больше по другим странам, причём нигде списка всех инсталляций нет, хотя их реально где-то 100+, с большим числом наборов данных там опубликованных.

И это только про геоданные, другая сторона открытости данных в том что наиболее устойчивыми их потребителями оказались исследователи. Конечно есть разработчики использующие API или большие выгрузки, аналитики и тд., но концептуальные замечания и массовость употребления исследователями происходит ещё и от того что что большая часть больших научных данных финансируется гос-вом, и сочетание требований по обязательной их публикации и расширению их использования привело к тому что научные данные составляют существенную их часть.

Я упоминал несколько раз о том что публикуется в США на портале data.gov. Так вот там не 3/4 данных - это геоданные (193 тысячи наборов данных из 257 тысяч), в значительной степени произведённых научными учреждениями NASA, USGS, NOAA, И это при том что data.gov пока не индексирует крупные научные репозитории данных вроде Harvard Dataverse в США и ещё довольно многие.

Поэтому хотя и открытые данные оставались и остаются важным инструментом открытости государства, естественных монополий и тд., сильный фокус последних лет на очень практических областях, таких как я сейчас пишу.

#opendata #datasets #usa #datacatalogs #geodata
Практически незаметно прошла новость о том что администрация Байдена вернулась к практике публикации информации о посетителях Белого дома [1]. Эта практика была среди инициатив Барака Обамы, но после того как президентом США стал Дональд Трамп эти данные не публиковали. И вот в мае 2023 года данные вновь публикуются. Больших данных там нет, всего лишь 514 тысяч записей логов о посетителях [2], тем не менее это важная практика для обеспечения прозрачности исполнительной власти в целом и лоббизма в частности.

Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/

#opendata #datasets #data #usa
В рубрике бизнеса на открытых данных Social Explorer [1], продукт и одноимённая компания в США предоставляющая аналитический сервис с визуализацией данных на картах с детализацией до отдельных графств (Counties), аналог российских муниципальных образований. Практически все данные в их продукте - это общедоступные данные переписи США, избирательных комиссий, отчетов ФБР по преступности и других статистических индикаторов публикуемых в США с довольно высокой детализацией. Особенность продукта в том что он почти полностью ориентирован на университетскую подписку. Университеты приобретают подписку и предоставляют доступ преподавателям и студентам. Поэтому в платформе отдельно реализованы разделы по быстрому старту по тому как учить и как учиться с ней работать.

Ссылки:
[1] https://www.socialexplorer.com

#startups #opendata #geodata #usa
В рубрике интересных наборов данных CloudDrift, a platform for accelerating research with Lagrangian climate data [1] - это программная библиотека для доступа к данным собираемым с 25 тысяч дрейфующих буев в рамках программы Global Drifter Program (GDP) [2] реализуемой Национальным управлением океанических и атмосферных исследований США. Сами данные размещены на серверах Amazon и доступны в их сервисе S3 [3].

Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.

Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]

Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects

#opendata #opensource #science #usa #earthsciences #geodata
В рубрике интересных наборов данных проект Census Tree [1] как результат работы группы исследователей по сопоставлению данных переписей США с 1870 по 1940 годы и созданию наборов данных связей между людьми. Причём искали их создавая специальный алгоритм сопоставления и используя генеалогические базы данных. Уникально и то что в США существуют открытые микроданные переписей начиная с 1790 года [2] и то что исследователи могут с этим работать.

Результаты представлены в виде коллекции наборов данных [3] сопоставлений связей между двумя переписями. Наборы данных включают файлы от нескольких мегабайт до нескольких гигабайт, но для выгрузки нужна регистрация на OpenICPSR [4].

Данные доступны в формате CSV под лицензией CC-BY 4.0

Ссылки:
[1] https://www.censustree.org
[2] https://usa.ipums.org/usa/full_count.shtml
[3] https://www.censustree.org/data
[4] https://www.openicpsr.org

#opendata #usa #census #sociology #datasets
В рубрике как это устроено у них проект OpenEI (Open Energy Initiative) [1] развивается Департаментом энергетики США и включает инфраструктурные ресурсы для исследователей в области энергетики. В том числе репозитории открытых научных данных:
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт

А также многие другие данные [5].

Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.

От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.

Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data

#energy #opendata #usa #datacatalogs #datasets
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa
В рубрике как это работает у них проект PDAP, Police Data Accessibility Project [1], как очевидно из названия посвящён он доступности данных полиции в США для граждан и исследователей. Фактически это база из 1764 записей со ссылками на общедоступные данные полиции в США. Доступные в самых разных формах: геоданные в виде шэйпов, CSV файлы, страницы HTML или отчёты в PDF и с разбивкой по типу категории данных: преступность, вызовы полиции, остановки на дорогах, сведения о заключённых и так далее. Много всего и на основе этого можно, например, сравнивать штаты и отдельные графства по уровню актуальности и открытости их правоохранительных данных.

Для США это задача актуальная, полиция там децентрализована, систематизация данных процесс трудоёмкий, но одновременно с этим много хороших практик которые можно приводить в пример.

Ссылки:
[1] https://pdap.io

#opendata #usa #crime #police #data #datasets
В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.

Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US

#opendata #usa #datacatalogs #datasets