В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.
Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.
Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.
Ссылки:
[1] https://dateno.io/registry/country/PS
#opendata #datacatalogs #palestine #datasets
Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.
Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.
Ссылки:
[1] https://dateno.io/registry/country/PS
#opendata #datacatalogs #palestine #datasets
К вопросу об открытости и её формах и устойчивости проектов на открытых данных. Недавно я обнаружил что в проекте Zenodo (агрегатор научных данных) ввели ограничения объём данных в рамках одного запроса. Это не только Rate Limiting с ограничением числа запросов в минуту, но и то что в рамках одного поискового запроса, неважно, листая по 10 записей или по 100, можно получить не более 10 тысяч записей.
При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.
При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.
Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.
Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.
С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.
Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.
#opendata #zenodo #datasets
При том что всего в Zenodo более 4 миллионов записей из которых 365 тысяч - это наборы данных, то ограничение оказывается очень серьёзным. Не непреодолимым, но уже, влияет, например, на краулер Dateno который индексировал Zenodo через REST API.
При этом не важно доступ к API идёт после авторизации или без неё, авторизация влияет только на Rate Limit, а не на объём.
Zenodo - это один из эталонных открытых проектов активно используемых исследователями для публикации открытых данных. Кроме REST API у проекта также есть интерфейс OAI-PMH и экспорт данных во множестве форматов.
Но из недостатков проекта у него нет опции bulk download каталога метаданных. В результате после ограничений на API его открытость снижается.
С одной стороны это печально, хотя и обходится технически, с другой стороны я прекрасно понимаю откуда берутся такие ограничения. В их природе может быть как пресечение недобросовестных пользователей создающих повышенную нагрузку на сервер, так и блокировка ботов которые ни про какие ограничения не знают и просто долбят API перебирая страницы без участия и задания от человека.
Я лично считаю что для открытых проектов такие ограничения оправданы при предоставлении полных дампов данных (bulk download). И открытость соблюдена, и нагрузка на оборудование снижена.
#opendata #zenodo #datasets
В рубрике как это устроено у них открытые данные в Великобритании. Самый очевидный опыт когда дело касается открытых данных. Один из эпицентров движухи про открытые данные в мире был именно в Великобритании и один из первых порталов государственных открытых данных data.gov.uk также появился именно там.
Сейчас там 67 тысяч наборов данных и сам портал выглядит если не запущенным, то точно не развивающимся уже несколько лет. Особенно если сравнить с общеевропейским порталом data.europe.eu или порталом открытых данных Франции data.gouv.fr.
Малоизвестная широкой публике особенность открытости данных в Великобритании - это огромное число академических порталов раскрытия данных. Фактически данные публикуются всеми исследовательскими центрами и университетами, либо в общих порталах открытого доступа и раскрытия research outputs, либо на специальных порталах с research data.
Параллельно с этим в Великобритании существует множество порталов открытых данных городов и отдельных графств, множество геопорталов и тд. В реестре Dateno сейчас 382 каталога данных страны и почти наверняка есть ещё неучтённые. Из каталогов которые можно выделить:
Открытые данные
- Resource Data https://www.resourcedata.org
Геоданные
- NERC Geonetwork https://csw-nerc1.ceda.ac.uk/geonetwork/
- CEDA Geonetwork https://csw.ceda.ac.uk/geonetwork
Научные данные
- British Antarctic Survey Data https://data.bas.ac.uk
#opendata #datasets #uk #datacatalogs
Сейчас там 67 тысяч наборов данных и сам портал выглядит если не запущенным, то точно не развивающимся уже несколько лет. Особенно если сравнить с общеевропейским порталом data.europe.eu или порталом открытых данных Франции data.gouv.fr.
Малоизвестная широкой публике особенность открытости данных в Великобритании - это огромное число академических порталов раскрытия данных. Фактически данные публикуются всеми исследовательскими центрами и университетами, либо в общих порталах открытого доступа и раскрытия research outputs, либо на специальных порталах с research data.
Параллельно с этим в Великобритании существует множество порталов открытых данных городов и отдельных графств, множество геопорталов и тд. В реестре Dateno сейчас 382 каталога данных страны и почти наверняка есть ещё неучтённые. Из каталогов которые можно выделить:
Открытые данные
- Resource Data https://www.resourcedata.org
Геоданные
- NERC Geonetwork https://csw-nerc1.ceda.ac.uk/geonetwork/
- CEDA Geonetwork https://csw.ceda.ac.uk/geonetwork
Научные данные
- British Antarctic Survey Data https://data.bas.ac.uk
#opendata #datasets #uk #datacatalogs
17-18 сентября я буду в Алма-Ата, в Казахстане, какое-то число встреч встреч уже запланировано, если задумаете со мной там пересечься, напишите.
А пока об открытых данных в Казахстане я неоднократно тут писал, в стране довольно контрастная ситуация когда одновременно есть портал данных data.egov.kz который хоть и называется порталом открытых данных, но по факту ничего открытого там нет. И параллельно существует геопортал НИПД где как раз именно открытые данные, но только пространственные и в отличие от data.egov.kz он сделан на типовом ПО GeoNode как раз предназначенном для раскрытия геоданных.
А главная особенность Казахстана в большом числе региональных геопорталов сделанных местными компаниями и, соответственно, на которых слои карт отдаются в каких-то собственных форматах вместо общепринятых.
И отдельно, важная тема, в Казахстане практически нет практики публикации научных данных. Либо эта культура ещё не сформировалась, либо публикация данных идёт только на зарубежных ресурсах
В целом ощущения что данных много, систематизации мало, а проекты вроде data.egov.kz правильнее было бы закрыть или радикально переделать.
#opendata #datasets #datacatalogs #kazakhstan
А пока об открытых данных в Казахстане я неоднократно тут писал, в стране довольно контрастная ситуация когда одновременно есть портал данных data.egov.kz который хоть и называется порталом открытых данных, но по факту ничего открытого там нет. И параллельно существует геопортал НИПД где как раз именно открытые данные, но только пространственные и в отличие от data.egov.kz он сделан на типовом ПО GeoNode как раз предназначенном для раскрытия геоданных.
А главная особенность Казахстана в большом числе региональных геопорталов сделанных местными компаниями и, соответственно, на которых слои карт отдаются в каких-то собственных форматах вместо общепринятых.
И отдельно, важная тема, в Казахстане практически нет практики публикации научных данных. Либо эта культура ещё не сформировалась, либо публикация данных идёт только на зарубежных ресурсах
В целом ощущения что данных много, систематизации мало, а проекты вроде data.egov.kz правильнее было бы закрыть или радикально переделать.
#opendata #datasets #datacatalogs #kazakhstan
Telegram
Ivan Begtin
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]
Как думаете, что не так с этими опросами?
Не так то что в Казахстане нет портала открытых данных…
Как думаете, что не так с этими опросами?
Не так то что в Казахстане нет портала открытых данных…
В рубрике как это устроено у них, поисковик по биомедицинским датасетам DataMed [1], создан в Университете Калифорнии, Сан Диего, на грант 10 миллионов USD [2] от Национального института здравоохранения США и других грантодающих организаций.
С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...
Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.
Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.
Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.
И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.
Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01
#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...
Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.
Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.
Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.
И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.
Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01
#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
В рубрике доступных, но недокументированных открытых данных которые. по хорошему, российское Минэкономразвития должно было бы публиковать на портале открытых данных если бы он был, геоданные инвестиционной карты РФ [1] хотя никак не обозначены и не документированы публично тем не менее доступны через интерфейсы API опенсорс продукта GeoServer который используется внутри этого портала. Разработчики закрыли интерфейс самого геосервера, но закрыть интерфейсы API невозможно без глубокой переделки сайта, поскольку именно с сайта слои автоматически подгружаются. Поэтому и рассказать об этом можно без опасений, API исчезнут только если исчезнет сам портал.
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.1.1&request=GetCapabilities - WMS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.3.0&request=GetCapabilities - WMS 1.3.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.0.0&request=GetCapabilities - WFS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.1.0&request=GetCapabilities - WFS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=2.0.0&request=GetCapabilities - WFS 2.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.0.0&request=GetCapabilities - WCS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.0&request=GetCapabilities - WCS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.1&request=GetCapabilities - WCS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1&request=GetCapabilities - WCS 1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=2.0.1&request=GetCapabilities - WCS 2.0.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WPS&version=1.0.0&request=GetCapabilities - WPS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/tms/1.0.0 - TMS. 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wms?request=GetCapabilities&version=1.1.1&tiled=true - WMTS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wmts?REQUEST=GetCapabilities - WMTS 1.0.0
Этот пример не единственный, в России общедоступных инсталляций GeoServer 12 штук, на сегодняшний день. Это немного, но они есть.
Ссылки:
[1] https://invest.gov.ru
#opendata #russia #datasets #geodata #spatial
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.1.1&request=GetCapabilities - WMS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.3.0&request=GetCapabilities - WMS 1.3.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.0.0&request=GetCapabilities - WFS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.1.0&request=GetCapabilities - WFS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=2.0.0&request=GetCapabilities - WFS 2.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.0.0&request=GetCapabilities - WCS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.0&request=GetCapabilities - WCS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.1&request=GetCapabilities - WCS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1&request=GetCapabilities - WCS 1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=2.0.1&request=GetCapabilities - WCS 2.0.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WPS&version=1.0.0&request=GetCapabilities - WPS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/tms/1.0.0 - TMS. 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wms?request=GetCapabilities&version=1.1.1&tiled=true - WMTS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wmts?REQUEST=GetCapabilities - WMTS 1.0.0
Этот пример не единственный, в России общедоступных инсталляций GeoServer 12 штук, на сегодняшний день. Это немного, но они есть.
Ссылки:
[1] https://invest.gov.ru
#opendata #russia #datasets #geodata #spatial
Я, кстати, в очередной раз могу сказать что открытые данные - это, в первую очередь, культура и систематизация работы с данными. Так сложилось что я регулярно работаю с большими базами документов порождённых органами власти. Не с отдельными файлами, а прям с копиями банков документов законов и других НПА. И огромная часть этих НПА - это, безусловно, то что должно быть доступно в виде данных, а не в виде отсканированных PDF документов.
Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.
Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.
Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.
А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).
#opendata #datasets #laws #datacatalogs
Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.
Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.
Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.
А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).
#opendata #datasets #laws #datacatalogs
В рубрике больших интересных наборов данных Global Biodiversity Data [1] набор открытых данных по биоразнообразию собранный из нескольких научных работ и опубликованный в каталоге данных Всемирного банка.
Датасет относительно небольшой, около 2.2 ГБ в сжатом виде и содержит георазмеченные сведения по встречаемости различных видов.
О нём в августе писали в блоге Всемирного банка [2] и датасет полезен всем кто хочет изучить животный и растительный мир своей страны. Буквально годится для работы школьников на хакатонах например, но язык только английский.
Ссылки:
[1] https://datacatalog.worldbank.org/search/dataset/0066034/global_biodiversity_data
[2] https://blogs.worldbank.org/en/opendata/a-new-world-bank-database-to-support-a-new-era-in-biodiversity-c
#opendata #datasets #worldbank #biodiversity
Датасет относительно небольшой, около 2.2 ГБ в сжатом виде и содержит георазмеченные сведения по встречаемости различных видов.
О нём в августе писали в блоге Всемирного банка [2] и датасет полезен всем кто хочет изучить животный и растительный мир своей страны. Буквально годится для работы школьников на хакатонах например, но язык только английский.
Ссылки:
[1] https://datacatalog.worldbank.org/search/dataset/0066034/global_biodiversity_data
[2] https://blogs.worldbank.org/en/opendata/a-new-world-bank-database-to-support-a-new-era-in-biodiversity-c
#opendata #datasets #worldbank #biodiversity
В рубрике как это устроено у них Indian Data Portal [1] портал открытых данных созданный Bharti Institute of Public Policy, индийским исследовательским центром в области публичной политики.
Интересен тем что работает на собственном движке поверх каталога открытых данных CKAN. Сами данные хранятся в связанном с ним каталогом данных [2], а основной веб сайт использует API каталога данных для создания дополнительных фильтров при поиске данных, таких как гранулярность, сектор экономики, источник данных, частота обновления.
Данные исследователям доступны после авторизации и, в принципе, именно они являются аудиторией этого портала.
Это пример, использования CKAN как Data Management System (DMS), многие порталы данных в мире создавались по той же модели, когда CKAN используется как хранилище метаданных и данных, а над ним строятся разные интерфейсы.
Ссылки:
[1] https://indiadataportal.com/
[2] https://ckan.indiadataportal.com/
#opendata #datacatalogs #datasets #india
Интересен тем что работает на собственном движке поверх каталога открытых данных CKAN. Сами данные хранятся в связанном с ним каталогом данных [2], а основной веб сайт использует API каталога данных для создания дополнительных фильтров при поиске данных, таких как гранулярность, сектор экономики, источник данных, частота обновления.
Данные исследователям доступны после авторизации и, в принципе, именно они являются аудиторией этого портала.
Это пример, использования CKAN как Data Management System (DMS), многие порталы данных в мире создавались по той же модели, когда CKAN используется как хранилище метаданных и данных, а над ним строятся разные интерфейсы.
Ссылки:
[1] https://indiadataportal.com/
[2] https://ckan.indiadataportal.com/
#opendata #datacatalogs #datasets #india
В рубрике интересных наборов и каталогов данных, источники данных по блокчейну, Web 3
- Blockсhair datasets [1] дампы всех основных криптовалют: Bitcoin, Bitcoin Cash, Zcash, ERC-20, Ethereum, Dogecoin, Litecoin в виде коллекции сжатых TSV файлов
- Bitcoin Blockchain Historical Data [2] датасет на Kaggle адаптированный под data science прямо на платформе, только Bitcoin
- AWS Public Blockchain Data [3] дампы блокчейнов Bitcoin и Ethereum сразу в формате parquet
- Google Cloud Blockchain Analytics [4] данные и интерфейс работы с ними для 24 разных криптовалют на платформе Google Cloud
Ссылки:
[1] https://blockchair.com/dumps
[2] https://www.kaggle.com/datasets/bigquery/bitcoin-blockchain
[3] https://registry.opendata.aws/aws-public-blockchain/
[4] https://cloud.google.com/blockchain-analytics/docs/supported-datasets
#opendata #datasets #data #datacatalogs
- Blockсhair datasets [1] дампы всех основных криптовалют: Bitcoin, Bitcoin Cash, Zcash, ERC-20, Ethereum, Dogecoin, Litecoin в виде коллекции сжатых TSV файлов
- Bitcoin Blockchain Historical Data [2] датасет на Kaggle адаптированный под data science прямо на платформе, только Bitcoin
- AWS Public Blockchain Data [3] дампы блокчейнов Bitcoin и Ethereum сразу в формате parquet
- Google Cloud Blockchain Analytics [4] данные и интерфейс работы с ними для 24 разных криптовалют на платформе Google Cloud
Ссылки:
[1] https://blockchair.com/dumps
[2] https://www.kaggle.com/datasets/bigquery/bitcoin-blockchain
[3] https://registry.opendata.aws/aws-public-blockchain/
[4] https://cloud.google.com/blockchain-analytics/docs/supported-datasets
#opendata #datasets #data #datacatalogs
Blockchair
Ultimate Cryptocurrency Dataset by Blockchair
Comprehensive dataset across top cryptocurrencies