Ivan Begtin
8.07K subscribers
1.47K photos
3 videos
99 files
4.21K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
В рубрике как это работает у них, каталог научных данных геологической службы США (USGS) [1], всего более 23 тысяч наборов данных в основном в CSV, XML и Shape форматах, очень много данных с геопривязкой, наверное даже большая их часть.

Большая часть публикуется в ScienceBase [2] цифровом репозитории USGS, а всего агрегируется 8 научных репозиториев.

Сейчас они развивают каталог в сторону публикации научных моделей [3] вместе с указанием данных, ПО и публикаций на их основе.

Главные особенности каталога данных:
- обязательные DOI ссылки для всех датасетов
- детальные метаданные в привязкек теме наук о земле
- обязательная привязка к локации
- условия использования на все данные не ограничивающие
- обязательно с указанием периода наблюдений


Ссылки:
[1] https://data.usgs.gov/datacatalog/
[2] https://www.sciencebase.gov/catalog/
[3] https://data.usgs.gov/modelcatalog/search

#opendata #sciencedata #usa #geology
Цензура бывает не только в России не только в авторитарных странах, но имеет другую природу. Свежий законопроект в США SMART Copyright Act [1] предполагает введение практики технической блокировки онлайн ресурсов распространяющих материалы под копирайтом. Это не единственный и не первый такой нормативный документ в мире, ранее похожие инициативы были в Канаде и в Великобритании. Обо всём этом пишет Peter Routhier в блоге Archive.org [2].

Против этого законопроекта уже выступили такие НКО как Electronic Frontier Foundation, Public Knowledge, the Library Copyright Alliance и многие другие организации выступающие за свободу знаний [3].

Если закон будет принят, то неизбежны блокировки многих сайтов распространяющих знания, онлайн инициатив таких как Sci-Hub и многих других.

Ссылки:
[1] https://www.tillis.senate.gov/services/files/435EB2FD-145A-4AD6-BF01-855C0A78CEFC
[2] http://blog.archive.org/2022/03/29/internet-archive-joins-opposition-to-the-smart-copyright-act/
[3] https://archive.org/details/joint-letter-opposing-smart-act

#digital #censorship #copyright #copyleft #laws #usa
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.

Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.

Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.

Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov

#opendata #datasets #history #digitalpreservation #usa
О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.

А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.

Всё это про рынок труда в США, конечно.

А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?

Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801

#it #jobs #salaries #usa
В рубрике как это устроено у них портал GovInfo.gov [1] Правительства США. Единый портал раскрытия документов федеральных органов власти, начиная с законов и до всех остальных нормативных и иных распорядительных документов подлежащих обязательному раскрытию.

Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].

Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].

В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.

Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.

Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers

#opendata #usa #opengov
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Счетная палата США (GAO) опубликовала доклад Federal Spending Transparency: OIGs Identified a Variety of Issues with the Quality of Agencies' Data Submissions [1] посвящённый полноте и качеству раскрытия информации о федеральных государственных расходах. Для тех кто не следил за практиками раскрытия данных в США, эти данные раскрываются в рамках закона DATA Act в котором сформулированы требования и рекомендация к органам власти по публикации этих сведений. В отличие от России и многих стран с централизованными системами закупок, органы власти США гораздо свободнее в выборе процедур, отборке контрагентов и собственных правилах осуществления закупок. DATA Act не создавал новую систему, а требовал от упомянутых там органов власти передавать данные по определенным форматам Казначейству США.

А этот доклад - это результат анализа Счетной палаты США качества этих данных. В целом качество высокое, но, что неудивительно, далеко не у всех органов власти.

Важнее то что GAO выступает ещё и как аналитический центр осуществляющий технологическую оценку качества данных.

Они использовали следующие критерии для оценки
Quality of data: качество данных включая полноту, своевременность и аккуратность по статистической и нестатистической оценке
Completeness of agency submission: полнота данных передаваемых агентствами
Timeliness of agency submission: своевременность данных передаваемых агентствами
Completeness of data elements: полнота элементов данных
Timeliness of data elements: своевременность элементов данных
Accuracy of data elements: данные сопоставимы с данными из других информационных систем где они содержаться

Ссылки:
[1] https://www.gao.gov/products/gao-22-105427

#procurement #usa #usaspending #dataact #accountingchamber
Белый дом (США) опубликовал меморандум об обязательном оперативном раскрытии результатов научных исследователей финансируемых из федерального бюджета США [1] [2].

К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.

От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.

Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.


Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf

#opendata #openaccess #datasharing #usa
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]

Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]

Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.

Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.

Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.

Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org

#opendata #contracting #procurement #usa #transparency
В США Propublica опубликовали наиболее подробную карту загрязнения воздуха в США [1] с возможностью выбрать конкретную локацию и увидеть на карте уровни загрязнения на очень детальном уровне.

В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].

Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.

Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/

#opendata #datasets #lifequality #pollution #usa