В рубрике как это работает у них, каталог научных данных геологической службы США (USGS) [1], всего более 23 тысяч наборов данных в основном в CSV, XML и Shape форматах, очень много данных с геопривязкой, наверное даже большая их часть.
Большая часть публикуется в ScienceBase [2] цифровом репозитории USGS, а всего агрегируется 8 научных репозиториев.
Сейчас они развивают каталог в сторону публикации научных моделей [3] вместе с указанием данных, ПО и публикаций на их основе.
Главные особенности каталога данных:
- обязательные DOI ссылки для всех датасетов
- детальные метаданные в привязкек теме наук о земле
- обязательная привязка к локации
- условия использования на все данные не ограничивающие
- обязательно с указанием периода наблюдений
Ссылки:
[1] https://data.usgs.gov/datacatalog/
[2] https://www.sciencebase.gov/catalog/
[3] https://data.usgs.gov/modelcatalog/search
#opendata #sciencedata #usa #geology
Большая часть публикуется в ScienceBase [2] цифровом репозитории USGS, а всего агрегируется 8 научных репозиториев.
Сейчас они развивают каталог в сторону публикации научных моделей [3] вместе с указанием данных, ПО и публикаций на их основе.
Главные особенности каталога данных:
- обязательные DOI ссылки для всех датасетов
- детальные метаданные в привязкек теме наук о земле
- обязательная привязка к локации
- условия использования на все данные не ограничивающие
- обязательно с указанием периода наблюдений
Ссылки:
[1] https://data.usgs.gov/datacatalog/
[2] https://www.sciencebase.gov/catalog/
[3] https://data.usgs.gov/modelcatalog/search
#opendata #sciencedata #usa #geology
Цензура бывает не только в России не только в авторитарных странах, но имеет другую природу. Свежий законопроект в США SMART Copyright Act [1] предполагает введение практики технической блокировки онлайн ресурсов распространяющих материалы под копирайтом. Это не единственный и не первый такой нормативный документ в мире, ранее похожие инициативы были в Канаде и в Великобритании. Обо всём этом пишет Peter Routhier в блоге Archive.org [2].
Против этого законопроекта уже выступили такие НКО как Electronic Frontier Foundation, Public Knowledge, the Library Copyright Alliance и многие другие организации выступающие за свободу знаний [3].
Если закон будет принят, то неизбежны блокировки многих сайтов распространяющих знания, онлайн инициатив таких как Sci-Hub и многих других.
Ссылки:
[1] https://www.tillis.senate.gov/services/files/435EB2FD-145A-4AD6-BF01-855C0A78CEFC
[2] http://blog.archive.org/2022/03/29/internet-archive-joins-opposition-to-the-smart-copyright-act/
[3] https://archive.org/details/joint-letter-opposing-smart-act
#digital #censorship #copyright #copyleft #laws #usa
Против этого законопроекта уже выступили такие НКО как Electronic Frontier Foundation, Public Knowledge, the Library Copyright Alliance и многие другие организации выступающие за свободу знаний [3].
Если закон будет принят, то неизбежны блокировки многих сайтов распространяющих знания, онлайн инициатив таких как Sci-Hub и многих других.
Ссылки:
[1] https://www.tillis.senate.gov/services/files/435EB2FD-145A-4AD6-BF01-855C0A78CEFC
[2] http://blog.archive.org/2022/03/29/internet-archive-joins-opposition-to-the-smart-copyright-act/
[3] https://archive.org/details/joint-letter-opposing-smart-act
#digital #censorship #copyright #copyleft #laws #usa
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
National Archives
1950 Census Dataset on the Amazon Web Services (AWS) Registry of Open
The National Archives and Records Administration (NARA) publishes the 1950 Census dataset on the AWS Registry of Open Data. This documentation guides users in how to access the data.
О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.
А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.
Всё это про рынок труда в США, конечно.
А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?
Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801
#it #jobs #salaries #usa
А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.
Всё это про рынок труда в США, конечно.
А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?
Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801
#it #jobs #salaries #usa
В рубрике как это устроено у них портал GovInfo.gov [1] Правительства США. Единый портал раскрытия документов федеральных органов власти, начиная с законов и до всех остальных нормативных и иных распорядительных документов подлежащих обязательному раскрытию.
Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].
Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].
В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.
Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.
Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers
#opendata #usa #opengov
Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].
Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].
В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.
Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.
Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers
#opendata #usa #opengov
GovInfo
U.S. Government Publishing Office
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Brookings
How China uses search engines to spread propaganda
Beijing has exploited search engine results to disseminate state-backed media that amplify the Chinese Communist Party’s propaganda. As we demonstrate in our recent report, users turning to search …
Счетная палата США (GAO) опубликовала доклад Federal Spending Transparency: OIGs Identified a Variety of Issues with the Quality of Agencies' Data Submissions [1] посвящённый полноте и качеству раскрытия информации о федеральных государственных расходах. Для тех кто не следил за практиками раскрытия данных в США, эти данные раскрываются в рамках закона DATA Act в котором сформулированы требования и рекомендация к органам власти по публикации этих сведений. В отличие от России и многих стран с централизованными системами закупок, органы власти США гораздо свободнее в выборе процедур, отборке контрагентов и собственных правилах осуществления закупок. DATA Act не создавал новую систему, а требовал от упомянутых там органов власти передавать данные по определенным форматам Казначейству США.
А этот доклад - это результат анализа Счетной палаты США качества этих данных. В целом качество высокое, но, что неудивительно, далеко не у всех органов власти.
Важнее то что GAO выступает ещё и как аналитический центр осуществляющий технологическую оценку качества данных.
Они использовали следующие критерии для оценки
• Quality of data: качество данных включая полноту, своевременность и аккуратность по статистической и нестатистической оценке
• Completeness of agency submission: полнота данных передаваемых агентствами
• Timeliness of agency submission: своевременность данных передаваемых агентствами
• Completeness of data elements: полнота элементов данных
• Timeliness of data elements: своевременность элементов данных
• Accuracy of data elements: данные сопоставимы с данными из других информационных систем где они содержаться
Ссылки:
[1] https://www.gao.gov/products/gao-22-105427
#procurement #usa #usaspending #dataact #accountingchamber
А этот доклад - это результат анализа Счетной палаты США качества этих данных. В целом качество высокое, но, что неудивительно, далеко не у всех органов власти.
Важнее то что GAO выступает ещё и как аналитический центр осуществляющий технологическую оценку качества данных.
Они использовали следующие критерии для оценки
• Quality of data: качество данных включая полноту, своевременность и аккуратность по статистической и нестатистической оценке
• Completeness of agency submission: полнота данных передаваемых агентствами
• Timeliness of agency submission: своевременность данных передаваемых агентствами
• Completeness of data elements: полнота элементов данных
• Timeliness of data elements: своевременность элементов данных
• Accuracy of data elements: данные сопоставимы с данными из других информационных систем где они содержаться
Ссылки:
[1] https://www.gao.gov/products/gao-22-105427
#procurement #usa #usaspending #dataact #accountingchamber
Белый дом (США) опубликовал меморандум об обязательном оперативном раскрытии результатов научных исследователей финансируемых из федерального бюджета США [1] [2].
К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.
От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.
Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.
Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf
#opendata #openaccess #datasharing #usa
К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.
От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.
Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.
Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf
#opendata #openaccess #datasharing #usa
The White House
OSTP Issues Guidance to Make Federally Funded Research Freely Available Without Delay
Today, the White House Office of Science and Technology Policy (OSTP) updated U.S. policy guidance to make the results of taxpayer-supported research immediately available to the American public at no cost. In a memorandum to federal departments and agencies…
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]
Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]
Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.
Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.
Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.
Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org
#opendata #contracting #procurement #usa #transparency
Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]
Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.
Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.
Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.
Ссылки:
[1] http://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org
#opendata #contracting #procurement #usa #transparency
В США Propublica опубликовали наиболее подробную карту загрязнения воздуха в США [1] с возможностью выбрать конкретную локацию и увидеть на карте уровни загрязнения на очень детальном уровне.
В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].
Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.
Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/
#opendata #datasets #lifequality #pollution #usa
В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].
Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.
Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/
#opendata #datasets #lifequality #pollution #usa