Продолжая рассказывать про применение ИИ агентов для разработки, после экспериментов на не самом критичном коде я добрался до обновления реестра дата каталогов в Dateno и могу сказать что результаты пока что хорошие.
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
Вплоть до того что ИИ агент способен сформировать карточку дата каталога просто передав ему ссылку и задав промпт сгенерировать его описание. Это работает, во многом, потому что уже есть больше 10 тысяч созданных карточек и поскольку есть чёткие спецификации схем ПО дата каталогов, самих описаний дата каталогов и тд.
Кроме того хорошо отрабатывают задачи которые:
- находят ошибки в метаданных дата каталогов
- находят и исправляют дубликаты записей
- обогащают карточки каталогов тематиками и тэгами
- исправляют геоклассификацию каталогов
- и многое другое что предполагает массовое исправление и обогащение данных
Лично для меня и Dateno это очень хорошая новость это означает что реестр (dateno.io/registry) можно вести теперь значительно меньшими личными усилиями.
В ближайшее время я сделаю очередное обновление реестра уже по итогам большого числа итераций обновления метаданных и качество реестра существенно вырастет. А оно влияет и на индекс Dateno и на сам продукт реестра дата каталогов.
P.S. Тут я описываю внутренности происходящего в Dateno, которым я занимаюсь как основным проектом и продуктом. А новости проекта всегда можно читать в LinkedIn
#opendata #datacatalogs #ai #dev #datatools
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
✍8❤3🔥3🎉2
Я ранее писал про применение ИИ агентов для рефакторингка кода и про декларативное программирование, а теперь а теперь расскажу про декларативное создание баз данных.
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
GitHub
dataportals-registry/data/entities/AE/Federal/opendata/databayanatae.yaml at main · commondataio/dataportals-registry
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
✍7🔥4👍3❤1
Forwarded from Dateno
Regular country open data overview, this time Estonia
—
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint
Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures. ...
More at LinkedIn https://www.linkedin.com/pulse/open-data-estonia-small-country-remarkably-large-footprint-sdkce/
#opendata #estonia #datacatalogs
—
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint
Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures. ...
More at LinkedIn https://www.linkedin.com/pulse/open-data-estonia-small-country-remarkably-large-footprint-sdkce/
#opendata #estonia #datacatalogs
Linkedin
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint
Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures.
❤3✍3🤔2
Большое обновление реестра каталогов данных в Dateno, это то про что я писал в части применения ИИ для обогащения базы в виде YAML файлов. Фактически вся база реестра каталогов данных была пересобрана и обогащена множеством дополнительных данных, но основное - это почти 2 тысячи новых каталогов данных большая часть которых - это сервисы ArcGIS в США, большая часть региональных и муниципальных властей.
Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.
Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.
#opendata #datasets #datacatalogs
Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.
Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.
#opendata #datasets #datacatalogs
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
❤5
Forwarded from Dateno
🚀 Major Update of the Dateno Data Catalog Registry
The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.
🔍 Key Additions
• 1,993 new data catalog records
• 1,515 ArcGIS Server instances — massive geoportal expansion
• 293 global-level catalogs
• 97 French data catalogs
🌍 Geospatial Infrastructure
• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender
📊 Open Data Platforms
• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN
🔬 Scientific Repositories
• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS
🛠 Improvements
• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage
🔗 More Info
🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet
#dateno #opendata #datacatalogs #opensource
The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.
🔍 Key Additions
• 1,993 new data catalog records
• 1,515 ArcGIS Server instances — massive geoportal expansion
• 293 global-level catalogs
• 97 French data catalogs
🌍 Geospatial Infrastructure
• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender
📊 Open Data Platforms
• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN
🔬 Scientific Repositories
• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS
🛠 Improvements
• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage
🔗 More Info
🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet
#dateno #opendata #datacatalogs #opensource
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍5❤2
В рубрике интересных каталогов данных сеть порталов для публикации онтологий:
- https://biodivportal.gfbio.org/ - портал по онтологиям по биоразнообразию
- https://bioportal.bioontology.org/ - портал биомедицинским онтологиям
- https://technoportal.hevs.ch/ - репозиторий онтологий по технологиям и инженерии
- https://earthportal.eu/ - портал онтологий по наукам о Земле.
- ... и многие другие
Полный их список можно найти на сайте продукта с открытым кодом OntoPortal на котором они созданы. Их особенность в том что это порталы метаданных/справочников с описанием разного рода сложных понятий, весьма распространенные в биоинформатике в первую очередь и чуть меньше в других науках.
Их можно относить к каталогам данных, я их также вношу в реестр каталогов данных Dateno и их также можно индексировать в поисковой системе, хотя объём проиндексированного будет невелик, но полезен для некоторых категорий пользователей.
#opendata #datasets #data #datacatalogs #ontologies #linkeddata
- https://biodivportal.gfbio.org/ - портал по онтологиям по биоразнообразию
- https://bioportal.bioontology.org/ - портал биомедицинским онтологиям
- https://technoportal.hevs.ch/ - репозиторий онтологий по технологиям и инженерии
- https://earthportal.eu/ - портал онтологий по наукам о Земле.
- ... и многие другие
Полный их список можно найти на сайте продукта с открытым кодом OntoPortal на котором они созданы. Их особенность в том что это порталы метаданных/справочников с описанием разного рода сложных понятий, весьма распространенные в биоинформатике в первую очередь и чуть меньше в других науках.
Их можно относить к каталогам данных, я их также вношу в реестр каталогов данных Dateno и их также можно индексировать в поисковой системе, хотя объём проиндексированного будет невелик, но полезен для некоторых категорий пользователей.
#opendata #datasets #data #datacatalogs #ontologies #linkeddata
👍2
Ещё в продолжение правильного применения ИИ агентов, я системно занялся реестром каталогов данных в Dateno, я уже писал про предыдущее масштабное обновление, но это далеко не все. Основное обновление было про добавление большого числа каталогов данных. и их стало сильно больше.
А сейчас, в рамках задач по повышению качества индекса Dateno, повышение качество записей в реестре потому что при индексации датасетов часть их метаданных заполняется из записей в реестре. И здесь главное правильно сформулировать задачи ИИ агенту потому что это именно тот тип задач с которыми они справляются хорошо.
В итоге теперь в коде данных реестра появился отдельный блок dataquality в котором формируются отчеты по качеству записей. Отчеты разделены по странам, типам ошибок и критичности.
В общей сложности на 12281каталогов данных приходится 85956 ошибок, много, да? Потому что правила валидации весьма скурпулёзные и 49 тысяч из них - это проверка точек подключения к API (у одного каталога данных может быть до двух десятков таких API содержащих разные метаданные и данные).
Другие частые ошибки в отсутствии информации о лицензии каталога данных (она не всегда есть на уровне каталога, чаще лицензии указываются на уровне набора данных внутри, поэтому это корректируемое правило) и в отсутствии внешних идентификаторов у каталогов данных - это мэппинг каталогов данных на Wikidata и другие референсные источники, но тут важно знать что у большинства каталогов данных нет этих референсных источников и сам Dateno ими является.
Поэтому скурпулезность правил сейчас избыточная, в дальнейшем корректируемая, но безусловно полезная для собственного понимания что и как необходимо корректировать.
Что важно что все отчеты по качеству данных специально генерируются таким образом чтобы их можно было читать и править самостоятельно или же отдавать ИИ агенту командой примерно такого содержания "Fix issues listed in [название файла]"
А я по прежнему возвращаюсь к мысли о том что декларативная разработка справочных наборов данных и баз данных - это вполне рабочий подход достойный отдельного манифеста.
Второе направление мысли у меня по этому поводу в том что системные промпты и промпты это далеко не единственная модель взаимодействия которую могли бы предлагать среды разработки с ИИ. Я бы добавил что нехватает моделей взаимодействия которые я бы назвал сценарии и контроли. По сути есть стандартизированные цепочки промптов которые надо выполнять всегда при ручном или автоматизированном изменении кода.
Они включают:
- проверку и правку кода в части стилистика и линтинга (а ля pylint и аналоги для Python)
- подготовку и обновление тестов
- обновление документации (минимальное или весьма комплексное)
- acceptance тестирование (и другие виды тестирования при необходимости)
- сборка и релиз на Github/Gitlab/другой способ управления кодом
Многое из этого вшито в CI/CD пайплайны, но многое из этого может быть ИИ автоматизировано. Вопрос может ли это быть автоматизировано в IDE на стороне пользователя и пройти ручную финальную проверку или вынесено в CI/CD на внешнем сервисе и ручная проверка необязательна.
Мои ощущения что это скорее расширяемые модели контролируемых сценариев/строительных блоков внутри IDE с обязательными стадиями ручного контроля.
#thoughts #dateno #datacatalogs #dataquality
А сейчас, в рамках задач по повышению качества индекса Dateno, повышение качество записей в реестре потому что при индексации датасетов часть их метаданных заполняется из записей в реестре. И здесь главное правильно сформулировать задачи ИИ агенту потому что это именно тот тип задач с которыми они справляются хорошо.
В итоге теперь в коде данных реестра появился отдельный блок dataquality в котором формируются отчеты по качеству записей. Отчеты разделены по странам, типам ошибок и критичности.
В общей сложности на 12281каталогов данных приходится 85956 ошибок, много, да? Потому что правила валидации весьма скурпулёзные и 49 тысяч из них - это проверка точек подключения к API (у одного каталога данных может быть до двух десятков таких API содержащих разные метаданные и данные).
Другие частые ошибки в отсутствии информации о лицензии каталога данных (она не всегда есть на уровне каталога, чаще лицензии указываются на уровне набора данных внутри, поэтому это корректируемое правило) и в отсутствии внешних идентификаторов у каталогов данных - это мэппинг каталогов данных на Wikidata и другие референсные источники, но тут важно знать что у большинства каталогов данных нет этих референсных источников и сам Dateno ими является.
Поэтому скурпулезность правил сейчас избыточная, в дальнейшем корректируемая, но безусловно полезная для собственного понимания что и как необходимо корректировать.
Что важно что все отчеты по качеству данных специально генерируются таким образом чтобы их можно было читать и править самостоятельно или же отдавать ИИ агенту командой примерно такого содержания "Fix issues listed in [название файла]"
А я по прежнему возвращаюсь к мысли о том что декларативная разработка справочных наборов данных и баз данных - это вполне рабочий подход достойный отдельного манифеста.
Второе направление мысли у меня по этому поводу в том что системные промпты и промпты это далеко не единственная модель взаимодействия которую могли бы предлагать среды разработки с ИИ. Я бы добавил что нехватает моделей взаимодействия которые я бы назвал сценарии и контроли. По сути есть стандартизированные цепочки промптов которые надо выполнять всегда при ручном или автоматизированном изменении кода.
Они включают:
- проверку и правку кода в части стилистика и линтинга (а ля pylint и аналоги для Python)
- подготовку и обновление тестов
- обновление документации (минимальное или весьма комплексное)
- acceptance тестирование (и другие виды тестирования при необходимости)
- сборка и релиз на Github/Gitlab/другой способ управления кодом
Многое из этого вшито в CI/CD пайплайны, но многое из этого может быть ИИ автоматизировано. Вопрос может ли это быть автоматизировано в IDE на стороне пользователя и пройти ручную финальную проверку или вынесено в CI/CD на внешнем сервисе и ручная проверка необязательна.
Мои ощущения что это скорее расширяемые модели контролируемых сценариев/строительных блоков внутри IDE с обязательными стадиями ручного контроля.
#thoughts #dateno #datacatalogs #dataquality
🔥7⚡2👍2❤1😁1
Свежий российский портал открытых данных платформа.дом.рф один из немногих государственных ресурсов с открытыми данными появившихся в РФ в последнее время.
Из плюсов:
- новый портал с открытыми данными
- отраслевая специализация, данные по строительной отрасли
Из минусов:
- всего 10 наборов данных в CSV формате общим объемом около 4-5 мегабайт (самый большой 1.94 МБ)
- нет API (хотя обещают)
- нет указания условий использования (что делает это не открытыми данными, а общедоступными поскольку нужны свободные лицензии).
- условия использования (пользовательское соглашение) явным образом запрещает использование в коммерческих целях без получения разрешения от Дом.РФ - запросы рассматриваются 5 дней
- нет возможности автоматически обновлять датасеты (у них нет пермалинков и нет API), автоматизированный ETL процесс не построить
В целом, учитывая что Дом.РФ как раз активно и дорого торгует аналитикой, этот портал больше пока похож на замануху для покупки данных, а не как полноценный портал открытых данных.
Но кто знает, может это только начало?
#opendata #russia #datacatalogs
Из плюсов:
- новый портал с открытыми данными
- отраслевая специализация, данные по строительной отрасли
Из минусов:
- всего 10 наборов данных в CSV формате общим объемом около 4-5 мегабайт (самый большой 1.94 МБ)
- нет API (хотя обещают)
- нет указания условий использования (что делает это не открытыми данными, а общедоступными поскольку нужны свободные лицензии).
- условия использования (пользовательское соглашение) явным образом запрещает использование в коммерческих целях без получения разрешения от Дом.РФ - запросы рассматриваются 5 дней
- нет возможности автоматически обновлять датасеты (у них нет пермалинков и нет API), автоматизированный ETL процесс не построить
В целом, учитывая что Дом.РФ как раз активно и дорого торгует аналитикой, этот портал больше пока похож на замануху для покупки данных, а не как полноценный портал открытых данных.
Но кто знает, может это только начало?
#opendata #russia #datacatalogs
👍4✍3😁2🤣1
В рубрике как это устроено у них (наверное) портал открытых данных ЕАЭС opendata.eaeunion.org
Содержит реестры и ресурсы ЕАЭС в части разрешительной работы и совместной деятельности.
Предоставляет отраслевые данные через REST API и по стандарту API OData.
Плюсы:
- данные общедоступны декларируемые явным образом как открытые
- хорошо документированное стандартизированное API
- много разных отраслевых данных
Минусы:
- свободные лицензии не указаны явным образом
- нет возможности массовой выгрузки (сразу все), у API ограничение по выгрузке до 5000 записей за раз
- данные рассеяны по множеству отраслевых подсайтов что неудоьно при желании скачать все
#opendata #datacatalogs
Содержит реестры и ресурсы ЕАЭС в части разрешительной работы и совместной деятельности.
Предоставляет отраслевые данные через REST API и по стандарту API OData.
Плюсы:
- данные общедоступны декларируемые явным образом как открытые
- хорошо документированное стандартизированное API
- много разных отраслевых данных
Минусы:
- свободные лицензии не указаны явным образом
- нет возможности массовой выгрузки (сразу все), у API ограничение по выгрузке до 5000 записей за раз
- данные рассеяны по множеству отраслевых подсайтов что неудоьно при желании скачать все
#opendata #datacatalogs
✍10
В рубрике как это устроено у них открытые данные в Австрии собраны на национальном портале data.gv.at где опубликовано 63 тысячи с небольшим наборов данных по самым разным тематикам. Портал работает на базе ПО CKAN, к нему доступно REST API, а данные экспортируются в форматах связанных данных и почти у всех наборов данных есть привязанная свободная лицензия. В целом портал и все инициативы по открытым данным в Австрии напрямую взаимосвязаны и ссылаются на политики Евросоюза и, в частности, сейчас имеют фокус на публикацию данных особой ценности (HVD) и переход к публикации данных необходимых для обучения ИИ.
Некоторые особенности австрийского портала данных в том что, как и во многих других странах, создатели портала используют искусственное дробление наборов данных для демонстрации их количества. так из 63 тысяч наборов данных 52 тысячи наборов данных - это файлы муниципальных бюджетов страны (1692 муниципалитета) разбитые по годам примерно за 20 лет и по нескольким вида бюджетной отчетности с другого официального портала www.offenerhaushalt.at
Все эти 52 тысячи наборов данных можно свести от 1 до 1692 (единая база или дробление только по территориям), а все остальное это очень искусственное разделение не имеющее отношения к сценариям использования пользователями.
Я такое дробление данных вижу нередко, оно бывает оправдано для улучшения поиска данных, когда создают датасеты по территориальному принципу, но совсем неоправдано для дробления по годам.
В целом же в Австрии 58 порталов данных и это скорее всего не все из них подсчитаны, реально может быть и больше. Многие данные публикуются в исследовательских репозиториях данных или в каталогах геоданных, которые лишь частично собираются на национальном портале.
#opendata #austria #datacatalogs
Некоторые особенности австрийского портала данных в том что, как и во многих других странах, создатели портала используют искусственное дробление наборов данных для демонстрации их количества. так из 63 тысяч наборов данных 52 тысячи наборов данных - это файлы муниципальных бюджетов страны (1692 муниципалитета) разбитые по годам примерно за 20 лет и по нескольким вида бюджетной отчетности с другого официального портала www.offenerhaushalt.at
Все эти 52 тысячи наборов данных можно свести от 1 до 1692 (единая база или дробление только по территориям), а все остальное это очень искусственное разделение не имеющее отношения к сценариям использования пользователями.
Я такое дробление данных вижу нередко, оно бывает оправдано для улучшения поиска данных, когда создают датасеты по территориальному принципу, но совсем неоправдано для дробления по годам.
В целом же в Австрии 58 порталов данных и это скорее всего не все из них подсчитаны, реально может быть и больше. Многие данные публикуются в исследовательских репозиториях данных или в каталогах геоданных, которые лишь частично собираются на национальном портале.
#opendata #austria #datacatalogs
✍4❤1
В рубрике как это устроено у них Fairstack 1.0 комплект продуктов и сервисов от Китайской академии наук (СAS) по организации инфраструктуры работы с данными для исследователей. Включает множество инструментов с открытым кодом и разработанных в компьютерном центре CAS для организации работы исследователей.
Минус - все на китайском
Плюс - все довольно таки грамотно описано и организовано и адаптируемо под разные научные дисциплины. Например, каталог данных InstDB для публикации данных исследователями и множество инструментов по их обработке, подготовке, хранению и так далее.
#opendata #datacatalogs #china
Минус - все на китайском
Плюс - все довольно таки грамотно описано и организовано и адаптируемо под разные научные дисциплины. Например, каталог данных InstDB для публикации данных исследователями и множество инструментов по их обработке, подготовке, хранению и так далее.
#opendata #datacatalogs #china
👍4
Свежий портал открытых данных data.gov.bt Бутана включает 25 наборов данных, из которых 18 открытые и 7 помечены как common (странное название для данных доступных по запросу).
Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.
#opendata #bhutan #datacatalogs
Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.
#opendata #bhutan #datacatalogs
👍3⚡1😁1🌚1
ecosystem.ckan.org - свежий реестр каталогов открытых данных на базе CKAN, всего 695 сайтов построенных на CKAN и на которых публикуются открытые данные. Создано компанией datHere в рамках научного гранта POSE в США выданного на создание экосистемы открытого ПО.
До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu
Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.
И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.
#opendata #datacatalogs #ckan
До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu
Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.
И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.
#opendata #datacatalogs #ckan
✍4
В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.
У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.
#opendata #datacatalogs #statistics #ASEAN
У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.
#opendata #datacatalogs #statistics #ASEAN
👍4✍1
Также в рубрике как это устроено у них у Всемирной организации здравоохранения (WHO) существует множество информационных систем и банков данных, начиная с центральной data.who.int и продолжая информационным и системами по региональным блокам. Большая часть из них - это довольно консервативные системы отображения графиков и дашбордов статистики. Но отдельно стоит Western Pacific Health Data Platform (Западно-Тихоокеанская платформа данных о здоровье). Она относительно недавно была обновлена и является гибридом между системой управления статистистикой, визуализации данных и каталога открытых данных. Она содержит 2433 показателя по 38 странам, опубликованные в 4051 наборе данном доступном в форматах CSV, JSON, XLSX, RDATA, Parquet.
Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов
Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)
#opendata #datasets #WHO #datacatalogs
Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов
Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)
#opendata #datasets #WHO #datacatalogs
👍3✍2❤1
Я тут уже не раз рассказывал про то как работаю над реестром каталогов данных который воплотился в Dateno registry и который доступен в открытом репозитории.
Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.
По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.
Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.
На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.
Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.
Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.
#opendata #datasets #dateno #data #datacatalogs
Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.
По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.
Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.
На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.
Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.
Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.
#opendata #datasets #dateno #data #datacatalogs
👍12❤🔥3🔥3❤1
Ещё в рубрике как это устроено у них о том что порталы и каталоги открытых данных даже со свободными лицензиями не всегда содержат открытые данные.
Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.
Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.
Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.
#opendata #datacatalogs
Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.
Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.
Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.
#opendata #datacatalogs
🔥3❤🔥2
В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.
Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.
Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.
#opendata #usa #energy #datacatalogs #datasets
Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.
Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.
#opendata #usa #energy #datacatalogs #datasets
⚡6👍3❤1🔥1
В рубрике как это устроено у них, каталоги данных по всему миру:
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие
#opendata #worldbank #gbif #datacatalogs
- Atlas of Living Australia изначально платформа с открытым кодом для публикации данных по биоразнообразию в Австралии, но используется во многих странах в рамках проектов GBIF. Одновременно с этим является каталогом открытых данных со всеми присущими ему характеристиками - метаданными, указанием лицензий, а не просто навигатором по данным.
- The World Bank Maps геопортал Всемирного Банка вместе с более чем 2+ тысячами слоями для отображения различных показателей. Включает недокументированное API для доступа к данным. Это, в принципе, особенность проектов Всемирного банка в большом числе разных интерфейсов над данными и большим числом недокументированных API помимо документированных
- Science.gov поисковик по результатам научных работ публикуемых госорганами США. Агрегатор из 48 источников ведомственных порталов раскрытия результатов научной деятельности, включая крупные каталоги исследовательских данных такие как DOE Data Explorer, OSTI.GOV и другие
#opendata #worldbank #gbif #datacatalogs
maps.worldbank.org
World Bank Maps
Perform spatial analysis, search and overlay datasets from various sources, browse and compare satellite imageries, and view map of World Bank lending projects locations.
👍3❤1🔥1
Немного про экономику открытых данных с точки зрения инфраструктуры. Набор фактов, о том как порталы данных создаются.
Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.
В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.
Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.
В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.
#opendata #market #data #datacatalogs
Количественно большая часть порталов открытых данных в мире создаются на базе открытого ПО: CKAN, DKAN, Geonetwork, GeoNode, InvenioRDM и многих других. Открытый код доминирует, но далеко не является единственным.
В мире есть несколько основных коммерческих вендоров предоставляющих облачные порталы через годовые лицензии:
- ArcGIS Hub - продукт SaaS от ESRI есть ограниченная бесплатная версия которой массово пользуются и есть Premium версия стоит порядка $10000 в год. Акцент на геоданных, но многие публикуют и Excel и. CSV и иные дата файлы на этих порталах.
- OpenDataSoft - французская компания предоставляющая сервис порталов открытых данных. За последние 2 года они переименовались в Huwise и стали позиционировать себя как разработчиков маркетплейсов данных. Их ценник варьируется от 46 до 186 тысяч евро в год
- Socrata - компания из США и одноименный продукт, была куплена Tyler Technologies' Data & Insights и как компания более не существует, но продукт остался и используется преимущественно в США. Стоимость лицензии и внедрения порядка $49000 в год
- PortalJS - продукт компании Datopian, одних из разработчиков open source каталога данных CKAN. Продукт тоже с открытым кодом и с онлайн версией по модели SaaS с ценником от ~$1200 до ~$3600 ежегодно. Стоимость невысокая, но и коммерческих внедрений у них очень мало. Большинству достаточно бесплатного и открытого CKAN или открытой версии PortalJS.
Все остальные вендоры порталов с данными скорее являются вендорами автоматизации академических и образовательных институций и тот же Elsevier Pure используется для публикации исследовательских результатов (research outputs) включая наборы данных, но рассматривать их как вендора порталов открытых данных будет, всё таки, неверно.
В целом же этот рынок как рынок существует только в Западном мире, где есть сложившаяся привычка и бюджеты платить за SaaS решения и лицензии и где тема открытых данных имеет сильные институциональные корни. В развивающихся странах чаще массово разворачивают ПО с открытым кодом или используют бесплатные версии SaaS продуктов вроде ArcGIS Hub в базовой бесплатной редакции.
#opendata #market #data #datacatalogs
👍3✍2