Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
GitHub
Retiring the Hub on June 6th, 2024 · microsoft/PlanetaryComputer · Discussion #347
NoteThe Planetary Computer Hub will be retired on the 6th of June 2024. This is a notice that the Planetary Computer Hub will be retired on the 6th of June 2024. Please note that this change only a...
В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.
Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US
#opendata #usa #datacatalogs #datasets
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.
Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US
#opendata #usa #datacatalogs #datasets
В рубрике как это устроено у них в мире существует как минимум две большие инициативы по международной кооперации вокруг открытых данных и открытости государства.
Первая - это Open Government Partnership [1], партнёрство открытых правительств где страны и регионы участники публикуют добровольные обязательства, а НКО из этих стран мониторят их соблюдение. Всего там сейчас 75 стран и более 100 городов. Причём 55 городов и территорий присоединились в 2024 году.
Основные инициативы OGP - это открытость бюджетов, открытость парламентов, вовлечение граждан в госуправление, открытость информации, открытые данные, противодействие коррупции и ещё многое другое.
В обязательствах стран и регионов не всегда есть открытые данные, часто акцент делается на партисипаторном бюджетировании. Тем не менее открытые данные есть в повестке большей части стран и многих территорий.
Из постсоветских стран в OGP участвуют Кыргызстан, Украина, Литва, Латвия, Эстония, Грузия и Армения и ряд городов из этих стран. Например, города Армавир, Гюмри, Ванадзор, Ереван. Правда в Армении почти нет обязательств властей по публикации открытых данных, на сегодняшний день.
Акцент на вовлечение городов и территорий у OGP произошёл относительно недавно, в основном поскольку застопорилось участие национальных правительств и однозначной политической ориентированностью организации.
В OGP, к примеру, нет таких стран как Вьетнам, Таиланд, Малайзия, Турция, Индия - всё это страны с большими публичными инициативами по открытости данных и национальными программами в этой области.
Другая большая международная инициатива - это Open Data Charter, о ней я расскажу в следующий раз.
Ссылки:
[1] https://www.opengovpartnership.org
[2] https://www.opengovpartnership.org/ogp-local/
#opendata #opengov #datasets #data
Первая - это Open Government Partnership [1], партнёрство открытых правительств где страны и регионы участники публикуют добровольные обязательства, а НКО из этих стран мониторят их соблюдение. Всего там сейчас 75 стран и более 100 городов. Причём 55 городов и территорий присоединились в 2024 году.
Основные инициативы OGP - это открытость бюджетов, открытость парламентов, вовлечение граждан в госуправление, открытость информации, открытые данные, противодействие коррупции и ещё многое другое.
В обязательствах стран и регионов не всегда есть открытые данные, часто акцент делается на партисипаторном бюджетировании. Тем не менее открытые данные есть в повестке большей части стран и многих территорий.
Из постсоветских стран в OGP участвуют Кыргызстан, Украина, Литва, Латвия, Эстония, Грузия и Армения и ряд городов из этих стран. Например, города Армавир, Гюмри, Ванадзор, Ереван. Правда в Армении почти нет обязательств властей по публикации открытых данных, на сегодняшний день.
Акцент на вовлечение городов и территорий у OGP произошёл относительно недавно, в основном поскольку застопорилось участие национальных правительств и однозначной политической ориентированностью организации.
В OGP, к примеру, нет таких стран как Вьетнам, Таиланд, Малайзия, Турция, Индия - всё это страны с большими публичными инициативами по открытости данных и национальными программами в этой области.
Другая большая международная инициатива - это Open Data Charter, о ней я расскажу в следующий раз.
Ссылки:
[1] https://www.opengovpartnership.org
[2] https://www.opengovpartnership.org/ogp-local/
#opendata #opengov #datasets #data
Open Government Partnership
Home - Open Government Partnership
In 2011, government leaders and civil society advocates came together to create a unique partnership—one that combines these powerful forces to promote accountable, responsive and inclusive governance.
В рубрике интересных наборов данных
- Kiwi-Torrent-Research [1] датасет torrent файлов, включает 107 миллионов torrent'ов указывающих на 1.68 миллиардов файлов. Всего торрентов там на 59.6 GB в сжатом виде. В основе более десятка источников, в основном из Archive.org. Многие источники 3-4 летней давности, так что дамп не самый актуальный по содержанию, но, несомненно, один из самых крупных если не крупнейших.
- Rijden de Treinen train services [2] открытые данные архива данных о движении поездов в Нидерландах. Данные с 2019 по 2024 годы, в сжатом виде около 2 GB. Включают информацию о фактическом движении поездов включая информацию об остановке, времени прибытия, времени отправления, операторе, поезде и многом другом. Очень хороший обучающий датасетов учить студентов. Его используют в DuckDB для демонстрации работы базы данных [3] заодно с датасетом по расстояниям между станциями.
Ссылки:
[1] https://github.com/Kiwi-Torrent-Research/Kiwi-Torrent-Research
[2] https://www.rijdendetreinen.nl/en/open-data/train-archive
[3] https://duckdb.org/2024/05/31/analyzing-railway-traffic-in-the-netherlands.html
#opendata #datasets
- Kiwi-Torrent-Research [1] датасет torrent файлов, включает 107 миллионов torrent'ов указывающих на 1.68 миллиардов файлов. Всего торрентов там на 59.6 GB в сжатом виде. В основе более десятка источников, в основном из Archive.org. Многие источники 3-4 летней давности, так что дамп не самый актуальный по содержанию, но, несомненно, один из самых крупных если не крупнейших.
- Rijden de Treinen train services [2] открытые данные архива данных о движении поездов в Нидерландах. Данные с 2019 по 2024 годы, в сжатом виде около 2 GB. Включают информацию о фактическом движении поездов включая информацию об остановке, времени прибытия, времени отправления, операторе, поезде и многом другом. Очень хороший обучающий датасетов учить студентов. Его используют в DuckDB для демонстрации работы базы данных [3] заодно с датасетом по расстояниям между станциями.
Ссылки:
[1] https://github.com/Kiwi-Torrent-Research/Kiwi-Torrent-Research
[2] https://www.rijdendetreinen.nl/en/open-data/train-archive
[3] https://duckdb.org/2024/05/31/analyzing-railway-traffic-in-the-netherlands.html
#opendata #datasets
GitHub
GitHub - Kiwi-Torrent-Research/Kiwi-Torrent-Research: BitTorrent Data Set
BitTorrent Data Set. Contribute to Kiwi-Torrent-Research/Kiwi-Torrent-Research development by creating an account on GitHub.
В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.
Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.
Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.
#opendata #datasets #france #transport
Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.
Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.
#opendata #datasets #france #transport
Кстати, продолжая о том что получается достигать в Dateno того чего нет в других агрегаторах и поисковиках данных покажу на примере Эстонии.
В Европейском портале данных (ЕПД) всего 324 датасета из Эстонии. В Dateno их 39310.
Откуда такая разница? ЕПД агрегирует только данные национального геопортала Эстонии, а Dateno использует 43 каталога данных внутри страны и 18581 индикатор из базы Всемирного банка и 1760 индикаторов из базы индикаторов Банка международных расчётов. И ещё не все внутренние источники проиндексированы, набрать 50-60 тысяч наборов данных вполне реально.
Причём большая часть датасетов будут статистическими индикаторами, научными данными и геоданными.
#opendata #datasets #estonia #dateno #datacatalogs
В Европейском портале данных (ЕПД) всего 324 датасета из Эстонии. В Dateno их 39310.
Откуда такая разница? ЕПД агрегирует только данные национального геопортала Эстонии, а Dateno использует 43 каталога данных внутри страны и 18581 индикатор из базы Всемирного банка и 1760 индикаторов из базы индикаторов Банка международных расчётов. И ещё не все внутренние источники проиндексированы, набрать 50-60 тысяч наборов данных вполне реально.
Причём большая часть датасетов будут статистическими индикаторами, научными данными и геоданными.
#opendata #datasets #estonia #dateno #datacatalogs
Давайте я для разнообразия напишу про что-нибудь хорошее с открытыми данными в РФ
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets
#opendata #russia #datasets
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets
#opendata #russia #datasets
opendata.novo-sibirsk.ru
Ссылка на открытые данные
Новый портал с открытыми данными по госконтрактам открылся в Гватемале. Данные и API публикуются по стандарту Open Contracting Data Standard и доступны для всех желающих
#opendata #datasets #opencontracting
#opendata #datasets #opencontracting
В рубрике интересных наборов данных совсем не набор данных, а база UNROCA сведений о торговле обычными вооружениями из отчётов стран покупателей и продавцов оружия. Ведется под эгидой ООН в рамках United Nations Register of Conventional Arms, он и есть UNROCA в сокращении.
Несмотря на то что не все страны такие отчёты публикуют и многие публикуются с задержкой в несколько лет, там можно узнать немало интересного о том какие страны и кому в предверии каких конфликтов поставляли вооружение. Охватывают крупное и малое вооружение, не охватывают дроны и всё нестандартное. Немашиночитаемые отчёты доступны, также, в PDF на сайте ООН.
Несомненно эти данные можно распарсить и создать базу данных и удобные датасеты, а также придать им гораздо более качественную визуализацию. А также использовать в журналистских материалах. Как минимум можно проследить зависимости внешней политики стран и военных поставок.
Главное при их использовании и расследованиях не выйти на самих себя.🙏
#opendata #datasets #un #arms #armscontrol
Несмотря на то что не все страны такие отчёты публикуют и многие публикуются с задержкой в несколько лет, там можно узнать немало интересного о том какие страны и кому в предверии каких конфликтов поставляли вооружение. Охватывают крупное и малое вооружение, не охватывают дроны и всё нестандартное. Немашиночитаемые отчёты доступны, также, в PDF на сайте ООН.
Несомненно эти данные можно распарсить и создать базу данных и удобные датасеты, а также придать им гораздо более качественную визуализацию. А также использовать в журналистских материалах. Как минимум можно проследить зависимости внешней политики стран и военных поставок.
Главное при их использовании и расследованиях не выйти на самих себя.🙏
#opendata #datasets #un #arms #armscontrol
В рубрике как это устроено у них открытые данные из OS Data Hub [1] портала открытых данных и API распространяемых британским Ordnance Survey. У них есть такой забавный термин как free open data, хотя формально open data всегда свободны по доступу. Термин этот имеет природу из того что рядом и на том же портале Ordnance Survey торгуют платными подписками на премиальное API и премиальные датасеты.
Поскольку они де-факто монополисты на геоданные в Великобритании то решения о том что базовые слои карт должны быть общедоступны принимались в 2018 году геопространственной комиссией Пр-ва.
Ссылки:
[1] https://osdatahub.os.uk
#opendata #datasets #uk #data #geodata
Поскольку они де-факто монополисты на геоданные в Великобритании то решения о том что базовые слои карт должны быть общедоступны принимались в 2018 году геопространственной комиссией Пр-ва.
Ссылки:
[1] https://osdatahub.os.uk
#opendata #datasets #uk #data #geodata
В рубрике интересных каталогов данных портал DataOne [1] с данными о о земле, климате и связанными науками, агрегирующий данные из 63 научных репозиториев по этой теме и созданных на его же технологии, доступных как hosted repositories. Большая часть этих порталов созданы университетами и органами власти в США, всего в них более 956 тысяч наборов данных и уникальная возможность поиска датасетов по их геопривязке.
Одна из особенностей платформы в крайне детализированных метаданных по каждому набору, включая структуры таблиц, информацию о геопривязке, темах, и многом другом.
Поддерживается Университетом Калифорнии, не имеет открытого кода, но довольно большое сообщество и открытое API.
Ссылки:
[1] https://www.dataone.org
#opendata #datasets #data #earthsciences
Одна из особенностей платформы в крайне детализированных метаданных по каждому набору, включая структуры таблиц, информацию о геопривязке, темах, и многом другом.
Поддерживается Университетом Калифорнии, не имеет открытого кода, но довольно большое сообщество и открытое API.
Ссылки:
[1] https://www.dataone.org
#opendata #datasets #data #earthsciences
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.
Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.
В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектахза госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.
Ссылки:
[1] https://github.com/slovak-egov/nkod-portal
#opendata #slovakia #eu #standards #data #datasets
Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.
В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах
Ссылки:
[1] https://github.com/slovak-egov/nkod-portal
#opendata #slovakia #eu #standards #data #datasets
В рубрике очень больших датасетов (хотя с чем сравнивать😏) проект The Web Data Commons [1] я о нём писал несколько раз, но всегда можно и повториться. Это проект по сбору и извлечению смысловых данных из поискового индекса Common Crawl. Common Crawl - это бесплатная и открытая альтернатива поисковому индексу Гугла и на его основе делают много чего, датасетов, исследований, продуктов.
В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]
И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.
Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html
#opendata #datasets #web #entityrecognition
В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]
И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.
Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html
#opendata #datasets #web #entityrecognition