В рубрике как это устроено у них эстонский портал культурного наследия E-Varamu включает 23.8 миллиона описаний архивных объектов из которых 1.94 миллиона доступны онлайн. Включает изображения, документы, карты, тексты, аудио и видеозаписи, и даже наборы данных.
Для сравнения в российском НЭБ доступно 49.8 миллионов описаний из которых 5.3 миллиона доступны онлайн. С одной стороны вдвое больше, с другой стороны в Эстонии проживает 1.3 миллиона человек, а в России 143 миллиона. В России примерно в 100 раз больше людей и можно ожидать примерно в 100 раз больше объектов культурного наследия.
Можно еще к российским культурным объектам добавить данные Госкаталога РФ, это + ~55 миллионов объектов, но даже так разница с эстонским порталом в 4 раза, а не в 100 раз. Есть к чему стремиться, не говоря уже о том что метаданные госкаталога довольно куцые, а, по удивительным причинам каталоги метаданных НЭБ и Госкаталога не объединены.
Возвращаясь к эстонскому каталогу - более всего поражает детальность метаданных и огромное число доступных фасетов для поиска и фильтрации материалов.
Из минусов - отсутствие публично задокументированного API и наборов данных с метаданными.
#opendata #digitalheritage #culture #culturalheritage #estonia
Для сравнения в российском НЭБ доступно 49.8 миллионов описаний из которых 5.3 миллиона доступны онлайн. С одной стороны вдвое больше, с другой стороны в Эстонии проживает 1.3 миллиона человек, а в России 143 миллиона. В России примерно в 100 раз больше людей и можно ожидать примерно в 100 раз больше объектов культурного наследия.
Можно еще к российским культурным объектам добавить данные Госкаталога РФ, это + ~55 миллионов объектов, но даже так разница с эстонским порталом в 4 раза, а не в 100 раз. Есть к чему стремиться, не говоря уже о том что метаданные госкаталога довольно куцые, а, по удивительным причинам каталоги метаданных НЭБ и Госкаталога не объединены.
Возвращаясь к эстонскому каталогу - более всего поражает детальность метаданных и огромное число доступных фасетов для поиска и фильтрации материалов.
Из минусов - отсутствие публично задокументированного API и наборов данных с метаданными.
#opendata #digitalheritage #culture #culturalheritage #estonia
⚡3✍2🔥2
Я ранее писал про применение ИИ агентов для рефакторингка кода и про декларативное программирование, а теперь а теперь расскажу про декларативное создание баз данных.
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
Когда я только-только начинал вести список каталогов с данными в мире я делал это в в Excel файле с парой десятков колонок и сотнями записей, потом Excel стал неудобен и я перенес все в Airtable что было удобнее в течение длительного времени, там можно было настраивать разные view на одну и ту же таблицу и целенаправленно вносить новые записи с по странам или темам. С автоматизацией было не очень, зато ручная работа облегчалась.
И вот когда у меня в голове уже созрела мысль что не попробовать ли сделать поисковик по датасетам, я понял что надо перестать думать об этих данных как о таблицах (сложно перестать, конечно) и начать думать как о реестре. Для меня тогда выбор был в том чтобы:
- перенести этот реестр в СУБД и создать поверх интерфейс для редактирования. Например, загрузить в Postgres и поверх сделать быстро интерфейс с помощью Strapi или Directus'а или других no-code инструментов
- или начать смотреть на этот реестр как на код и поместить все в Github. Не так удобно для работы вручную, но хорошо автоматизируется
В итоге я пошёл вторым путем и разрезал таблицы на индивидуальные карточки дата каталогов сохраненные как YAML файлы согласно предопределенной схеме данных. Например, вот такая карточка. Эти записи можно редактировать вручную, а можно и автоматически. Можно автоматизировать обогащение метаданных, проверку API, доступность сайтов, проверку ошибок и так далее. Чтобы собственно и происходит внутри этого репозитория. От изначальный 2 тысяч каталогов до текущего их числа в более чем 10+ тысяч дата каталогов он вырос за счет автоматизированной загрузки в него большого числа дата каталогов из их агрегаторов.
Теперь я подключил последнюю версию Cursor'а к обновлению этого репозитория и оказывается он очень хорош в массовом обновлении YAML файлов и понимает команды сформулированные в стиле:
- "Проанализируй все записи, найди те у которых веб сайт владельца не указан, найди веб сайт и заполни поля owner.name и owner.link"
- "Проверь все записи относящиеся к Бельгии и проверь доступны ли указанные там сайты"
- "Создай JSON схему для YAML файлов дата каталогов и проверь все их записи на соответствие этой схеме"
и так далее.
Магия начала работать когда реестр достиг некоторой критической массы которая "помогает" ИИ агенту понимать схемы данных, предназначение репозитория и находить несоответствия. Ручная работа всё еще необходима, но для проверки сделанного, и её тоже можно автоматизировать.
Итого сейчас в обновленных данных реестра Dateno 10 905 каталогов. Они все пока в репозитории реестра в виде YAML файлов и parquet файла слепка с данными. Это на 794 каталога данных больше чем пока есть в общедоступном реестре (всего 10 111 каталогов).
Были добавлены:
- каталоги данных на базе GBIF IPT
- большие списки каталогов данных во Франции, Испании и Нидерландах
- по мелочи каталоги данных в других странах
А также огромное число исправлений в метаданных всех каталогов.
Фактически ИИ агенты для разработки прекрасно подходят для работы с данными упакованными таким образом. Я начинаю склоняться к мысли что такое обогащение данных работает лучше чем инструменты вроде OpenRefine.
Чуть позже я буду писать об этом всем лонгрид, но это уже после завершения чистки и обогащения репозитория которое уже сильно ускорилось.
#opendata #datacatalogs #dateno #dataengineering #dataanalysis
GitHub
dataportals-registry/data/entities/AE/Federal/opendata/databayanatae.yaml at main · commondataio/dataportals-registry
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
✍7🔥4👍2❤1
Forwarded from Dateno
Regular country open data overview, this time Estonia
—
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint
Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures. ...
More at LinkedIn https://www.linkedin.com/pulse/open-data-estonia-small-country-remarkably-large-footprint-sdkce/
#opendata #estonia #datacatalogs
—
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint
Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures. ...
More at LinkedIn https://www.linkedin.com/pulse/open-data-estonia-small-country-remarkably-large-footprint-sdkce/
#opendata #estonia #datacatalogs
Linkedin
Open Data in Estonia: A Small Country with a Remarkably Large Data Footprint
Estonia stands out in the open data landscape. Despite its relatively small population, the country hosts an impressive variety of data portals and repositories: open data platforms, official statistics, geodata services, and research data infrastructures.
❤3✍3🤔2
Для тех кто интересуется цифровой архивацией моя презентация с недавно прошедшей международной конференции посвященной библиотечному делу https://www.beautiful.ai/player/-Oe_rMY5u8Z1QKT9mqsu
#opendata #opanapi #digitalpreservation #webarchives
#opendata #opanapi #digitalpreservation #webarchives
👍13❤3
Большое обновление реестра каталогов данных в Dateno, это то про что я писал в части применения ИИ для обогащения базы в виде YAML файлов. Фактически вся база реестра каталогов данных была пересобрана и обогащена множеством дополнительных данных, но основное - это почти 2 тысячи новых каталогов данных большая часть которых - это сервисы ArcGIS в США, большая часть региональных и муниципальных властей.
Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.
Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.
#opendata #datasets #datacatalogs
Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.
Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.
#opendata #datasets #datacatalogs
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
❤5
Forwarded from Dateno
🚀 Major Update of the Dateno Data Catalog Registry
The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.
🔍 Key Additions
• 1,993 new data catalog records
• 1,515 ArcGIS Server instances — massive geoportal expansion
• 293 global-level catalogs
• 97 French data catalogs
🌍 Geospatial Infrastructure
• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender
📊 Open Data Platforms
• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN
🔬 Scientific Repositories
• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS
🛠 Improvements
• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage
🔗 More Info
🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet
#dateno #opendata #datacatalogs #opensource
The Dateno Registry — an open-source & open-data catalog of (almost) *all* data portals worldwide — just got a huge upgrade.
It powers the Dateno search engine, which now indexes 22M+ datasets.
🔍 Key Additions
• 1,993 new data catalog records
• 1,515 ArcGIS Server instances — massive geoportal expansion
• 293 global-level catalogs
• 97 French data catalogs
🌍 Geospatial Infrastructure
• 83 GeoServer
• 37 GeoNode
• 33 GeoNetwork
• 8 Lizmap
• 3 MapProxy
• 2 MapBender
📊 Open Data Platforms
• 47 OpenDataSoft
• 42 CKAN
• 5 DKAN
🔬 Scientific Repositories
• 38 Figshare
• 6 DSpace
• 6 NADA
• 9 THREDDS
🛠 Improvements
• 363 records with improved metadata
• Updated API endpoints for IPT catalogs
• Better metadata completeness
• Improved geographic & administrative coverage
🔗 More Info
🌐 Dateno Registry: https://dateno.io/registry
💾 Open-source data: https://github.com/commondataio/dataportals-registry
📦 Full dataset (parquet): https://github.com/commondataio/dataportals-registry/blob/main/data/datasets/full.parquet
#dateno #opendata #datacatalogs #opensource
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍5❤1
Давно планировал написать про цену открытости, того занимаясь открытым кодом, открытыми данными или другой деятельностью связанной с благом обществу и технологиям кроме плюсов есть и издержки, некоторые из которых бывают очень неочевидными ну или, как минимум, не на поверхности.
Вот несколько примеров:
- Роботизированные спамеры и скамеры. Одна из бед открытых каталогов данных со свободной регистрацией пользователей и публикацией данных в какой-то момент стало бесконечное количество спама. Например, на порталах на базе CKAN открытая регистрация была прописана по умолчанию, в какой-то момент спамеры и скамеры понаписали скриптов которые регистрировали сотни тысяч аккаунтов и от них постили все что только разрешалось: создавали группы, профили организаций и карточки датасетов. Все фэйковые конечно, но в результате многие открытые порталы оказались забиты низкокачественным SEO мусором или, хуже того, откровенным скамом. Живой пример у меня перед глазами портал открытых данных метеослужбы Туниса. Там зарегистрировано более 1.3миллиона аккаунтов пруф потому что они не стали ограничивать регистрацию и поэтому у них у них более 45 тысяч спам текстов в одном из разделов. Из-за этого открытость порталов посвященных открытости приходится ограничивать, мы позакрывали регистрацию во всех своих основанных на CKAN порталах открытых данных именно по этой причине.
- Специализированный спам. Если ты активно публикуешь открытый код, ведешь активность на Github то рано или поздно, но скорее очень рано на тебя посыпется специализированный спам который можно разделить условно на 2 типа:
1-й - "Мы тут увидели что Вы добавили в избранное такой то open source проект, а у нас очень похожий, обязательно зайдите и посмотрите на нас и может быть используйте и добавьте в избранное"
2-й - "Чувак(-иха) у тебя столько активности в твоем аккаунте, зарегистрируйся в нашем сервисе где мы сводим больших работодателей из США и крутых программистов"
- Публичный технический долг. Технический долг штука неприятная для всех кто когда-либо занимался программированием, для дела ли или для души, но когда ты публикуешь открытый код ты, де-факто, принимаешь для себя что твой технический долг будет общедоступен. Да-да, не только код, но и технический долг по нему.
- Похвала редка, критика неизбежна. Это касается не только открытых данных и открытого кода, но здесь важно понимание что за очень редкими случаями решения действительно массовых и болезненных проблем, пользователи будут редко хвалить и нередко критиковать. Это нормально, особенно в коммуникации в некоторых культурах.
—
Конечно, все это не отменяет плюсов, общедоступное портфолио, способ коммуникации с теми кто разделяет твои интересы и многое другое.
#thoughts #opendata #opensource
Вот несколько примеров:
- Роботизированные спамеры и скамеры. Одна из бед открытых каталогов данных со свободной регистрацией пользователей и публикацией данных в какой-то момент стало бесконечное количество спама. Например, на порталах на базе CKAN открытая регистрация была прописана по умолчанию, в какой-то момент спамеры и скамеры понаписали скриптов которые регистрировали сотни тысяч аккаунтов и от них постили все что только разрешалось: создавали группы, профили организаций и карточки датасетов. Все фэйковые конечно, но в результате многие открытые порталы оказались забиты низкокачественным SEO мусором или, хуже того, откровенным скамом. Живой пример у меня перед глазами портал открытых данных метеослужбы Туниса. Там зарегистрировано более 1.3миллиона аккаунтов пруф потому что они не стали ограничивать регистрацию и поэтому у них у них более 45 тысяч спам текстов в одном из разделов. Из-за этого открытость порталов посвященных открытости приходится ограничивать, мы позакрывали регистрацию во всех своих основанных на CKAN порталах открытых данных именно по этой причине.
- Специализированный спам. Если ты активно публикуешь открытый код, ведешь активность на Github то рано или поздно, но скорее очень рано на тебя посыпется специализированный спам который можно разделить условно на 2 типа:
1-й - "Мы тут увидели что Вы добавили в избранное такой то open source проект, а у нас очень похожий, обязательно зайдите и посмотрите на нас и может быть используйте и добавьте в избранное"
2-й - "Чувак(-иха) у тебя столько активности в твоем аккаунте, зарегистрируйся в нашем сервисе где мы сводим больших работодателей из США и крутых программистов"
- Публичный технический долг. Технический долг штука неприятная для всех кто когда-либо занимался программированием, для дела ли или для души, но когда ты публикуешь открытый код ты, де-факто, принимаешь для себя что твой технический долг будет общедоступен. Да-да, не только код, но и технический долг по нему.
- Похвала редка, критика неизбежна. Это касается не только открытых данных и открытого кода, но здесь важно понимание что за очень редкими случаями решения действительно массовых и болезненных проблем, пользователи будут редко хвалить и нередко критиковать. Это нормально, особенно в коммуникации в некоторых культурах.
—
Конечно, все это не отменяет плюсов, общедоступное портфолио, способ коммуникации с теми кто разделяет твои интересы и многое другое.
#thoughts #opendata #opensource
👍16❤3
Для всех ИИ агентов для кодинга у меня есть довольно простой тест который большая часть из них ещё полгода назад пройти не могли. В Армении есть портал статистики statbank.armstat.am который много лет назад создавался за счет помощи ЕС и с той поры не обновлялся. Он построен на базе движка с открытым кодом PxWeb шведско-норвежской разработки который прошел большую эволюцию за эти годы, но в Армстате используется очень старая его версия с интерфейсом созданным на ASP.NET с большим числом postback запросов что не критично, но неприятно усложняет сбор из него данных. Я такую задачу отношу к скорее утомительным чем сложным, потому что отладка на них может быть долгой и замороченной.
У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер
Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.
Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.
В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.
Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.
Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись
Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает
Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.
#opendata #opensource #ai #coding
У меня с этой задачей всегда была развилка из 3-х вариантов:
1. Создать и оплатить задачу для фрилансера (в пределах от $50 до $250 за всю работу)
2. Поручить одному из разработчиков/инженеров в команде (по уровню это задача скорее для аккуратного джуна)
3. С помощью ИИ агента сделать такой парсер
Поскольку задача не приоритетная (в Dateno данные собираются с более современных инсталляций PxWeb и через API), то для таких проверок ИИ агентов она прекрасно подходила. И я её пробовал решать и через ChatGPT, и Copilot, и Manus и Claude Code и первую версию Cursor'а, в общем много вариантов.
Они либо утыкались в то что определяли что это PxWeb и делали код для API который не работал, или проверяли что код для API не работает и писали что ничего дальше сделать не могут, или писали плохой код для скрейпинга веб страниц который не работал.
В итоге могу сказать что окончательно рабочее решение сумел сделать Antifravity от Google. Но каким образом, через запуск Chrome локально и автоматизированно пройдясь по сайту определив его структуру и создав код на Python который с некоторыми ошибками, но в итоге извлекал списки показателей и умел выгружать данные. Неидеальные, потому что так и не научился выгружать данные в форматах отличных от CSV, несмотря на несколько попыток и при том что через веб интерфейс это все работает, значит ошибка не в оригинальной системе.
Тем не менее, это уже результат примерно 2-х часов работы, что соответствовало бы времени в течение которого пришлось бы потратить на проверку работы фрилансера или разработчика в команде.
Что в итоге:
1. Количеств задач отдаваемых фрилансерам стремительно падает кроме малого числа где фрилансер большой профессионал в своей специализированной области.
2. Зачем нанимать джунов? Этот вопрос все острее с развитием ИИ агентов
3. ИИ агенты все успешнее решают "замороченные" и "утомительные" задачи с которыми ранее не справлялись
Все выводы звучали и раньше.
- ИИ агенты позволяют сильно повышать продуктивность команд
- проблема подготовки зрелых специалистов из джунов только нарастает
Меня приятно удивило качество работы Antigravity, но я его рассматриваю скорее как пример прогресса ИИ агентов в целом, подозреваю что другие ИИ агенты если ещё не могут этого (нужно браузером исследовать сайт), то смогут в скором будущем.
#opendata #opensource #ai #coding
Statistikmyndigheten SCB
PxWeb
Statistics Sweden (SCB) and Statistics Norway (SSB) has developed a new interface for PxWeb 2.0. The first version was released in October 2025 and is available on Github.
👍9❤4
Да, кстати, началась подготовка ко Дню открытых данных в мире и в РФ в марте 2026 г. Глобальная тема дней открытых данных будет "Trainathons" - подготовка данных для работы Public AI (открытых ИИ моделей) в первую очередь на базе Википедии и других открытых проектов со свободными лицензиями.Мы в Инфокультуре уже много лет проводим ОДД в формате онлайн конфы, но если есть другие предложения, пишите в чате @begtinchat или мне в личку.
#opendata #events
#opendata #events
❤6👍3🔥1
В рубрике интересных открытых наборов данных переписка Джеффри Эпштейна выложенная на сайте комитета по надзору Конгресса США. Что характерно, выложена она в Google Drive (прямая ссылка) и с копией в Dropbox (прямая ссылка). Всего это более 20 тысяч страниц документов которые так и ждут наглядной визуализации, анализа, подключения ИИ ботов для изучения и всего такого.
#opendata #datasets #usa #epstein
#opendata #datasets #usa #epstein
United States House Committee on Oversight and Government Reform
Oversight Committee Releases Additional Epstein Estate Documents - United States House Committee on Oversight and Government Reform
👍4🔥4😁2🌚1🌭1
К вопросу о применении ИИ агентов для разработки в задачах ведения баз данных я вдруг понял какому количеству унаследованного кода и данных можно придать новую жизнь.
У меня есть как минимум две таких базы данных которые можно перевести в режим декларативной сборки набора данных и обогащение с помощью ИИ, это:
1. Реестр всех госдоменов в РФ используемый для цифровой архивации
2. Большой каталог всех межгосударственных структур (ОЭСР, ООН и тд.) с привязкой к странам и тд.
Первое вообще не вариант вести открыто уже давно, можно получить обвинение в помощи хакерам, улучшать его сейчас публично совсем сложно, даже при всех благих целях применения - архивации госсайтов.
А вот второе я веду уже лет 10, но года 4 уже не обновлял. Это штука регулярно необходимая для мэппинга разного рода объектов - данных, текстовых материалов и не только.
Одно из применений в визуализациях и аналитике когда надо сравнить какие-то абсолютные или средние значения показателей демографии, ВВП, размеров рынка и тд. по страновым блокам. Сравнить ЕС и БРИКС или рейтинги внутри странового блока.
В общем это большая база эффективно поддающаяся автоматическому обогащению данных и дополняемая метаданными по странам, в принципе, расширяемая от макрорегионов до субрегионов и тогда применяемая для задач обогащения данных и мэппинга много где.
К примеру, реестров стран в мире не меньше нескольких десятков. Когда надо мэппить разные объекты на страны чаще всего используют реестр стран ООН, ISO 3166, справочник Всемирного банка, справочник геослужбы США и несколько частных проектов с открытым кодом. Внутри Dateno активно используется python библиотека pycountry, но это не единственный и не идеальный способ.
Впрочем задачи Dateno с помощью pycountry и разметки через LLM решаются достаточно эффективно, поэтому я на вот этот дата продукт в виде межгосударственных организаций и всего остального рассматриваю скорее как хобби чем как рабочую задачу.
Важно то что трудоёмкость резко падает с применением ИИ агентов потому что теперь они умеют читать данные из Википедии, Wikidata и десятков других справочников с высоким уровнем качества обогащения данных. То на что могли бы уйти месяцы ручной работы можно сделать за несколько дней.
#opendata #opensource #thoughts
У меня есть как минимум две таких базы данных которые можно перевести в режим декларативной сборки набора данных и обогащение с помощью ИИ, это:
1. Реестр всех госдоменов в РФ используемый для цифровой архивации
2. Большой каталог всех межгосударственных структур (ОЭСР, ООН и тд.) с привязкой к странам и тд.
Первое вообще не вариант вести открыто уже давно, можно получить обвинение в помощи хакерам, улучшать его сейчас публично совсем сложно, даже при всех благих целях применения - архивации госсайтов.
А вот второе я веду уже лет 10, но года 4 уже не обновлял. Это штука регулярно необходимая для мэппинга разного рода объектов - данных, текстовых материалов и не только.
Одно из применений в визуализациях и аналитике когда надо сравнить какие-то абсолютные или средние значения показателей демографии, ВВП, размеров рынка и тд. по страновым блокам. Сравнить ЕС и БРИКС или рейтинги внутри странового блока.
В общем это большая база эффективно поддающаяся автоматическому обогащению данных и дополняемая метаданными по странам, в принципе, расширяемая от макрорегионов до субрегионов и тогда применяемая для задач обогащения данных и мэппинга много где.
К примеру, реестров стран в мире не меньше нескольких десятков. Когда надо мэппить разные объекты на страны чаще всего используют реестр стран ООН, ISO 3166, справочник Всемирного банка, справочник геослужбы США и несколько частных проектов с открытым кодом. Внутри Dateno активно используется python библиотека pycountry, но это не единственный и не идеальный способ.
Впрочем задачи Dateno с помощью pycountry и разметки через LLM решаются достаточно эффективно, поэтому я на вот этот дата продукт в виде межгосударственных организаций и всего остального рассматриваю скорее как хобби чем как рабочую задачу.
Важно то что трудоёмкость резко падает с применением ИИ агентов потому что теперь они умеют читать данные из Википедии, Wikidata и десятков других справочников с высоким уровнем качества обогащения данных. То на что могли бы уйти месяцы ручной работы можно сделать за несколько дней.
#opendata #opensource #thoughts
👍9✍2🤔2❤1🌚1
В рубрике плохих примеров открытых данных открытые данные на портале data.gov.ru (ничего удивительного, да?)
набор данных от РКН Реестр граждан и организаций, привлекаемых Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций в качестве экспертов к проведению мероприятий по контролю в сфере связи
Дата последних изменений 1 декабря 2025 г., актуальность на 30 августа 2014 г.
То есть это буквально набор данных устаревший более чем 11 лет назад. Не просто неактуальный, а давно бесполезный. Но зачем-то "меняющийся". На сайте самого РКН эти же данные, но уже актуальные.
Повторю свой тезис про бесполезность портала data.gov.ru для чего бы то ни было.
#opendata #russia #datasets
набор данных от РКН Реестр граждан и организаций, привлекаемых Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций в качестве экспертов к проведению мероприятий по контролю в сфере связи
Дата последних изменений 1 декабря 2025 г., актуальность на 30 августа 2014 г.
То есть это буквально набор данных устаревший более чем 11 лет назад. Не просто неактуальный, а давно бесполезный. Но зачем-то "меняющийся". На сайте самого РКН эти же данные, но уже актуальные.
Повторю свой тезис про бесполезность портала data.gov.ru для чего бы то ни было.
#opendata #russia #datasets
🤔6👍3😁2💯1
В качестве примера данных создаваемых и улучшаемых с помощью ИИ, публикую открытым кодом и открытыми данными Internacia Datasets (Internacia - это международный на эсператно).
В репозитории находятся наборы данных в форматах JSONl, YAML, Parquet и база DuckDB в которых содержатся данные о 252 странах и 727 группах стран и межгосударственных организациях. Там же подробности про содержание и структуру базы, примеры доступа и другие подробности.
Эти наборы данных собираются из большого числа YAML файлов из папок data/countries и data/intblocks. В свою очередь эти YAML файлы вручную или автоматизированно обновляются. В частности чтобы собрать эту базу я взял свою базу межгосударственных организаций 5-летней давности, поправил вручную самое критичное и привел в порядок с помощью ИИ агентов Antigravity и Cursor, после чего снова поправил и в итоге собрал имеющиеся записи в наборы данных.
В Dateno сейчас частично используются часть этой логики используется для мэппинга датасетов на страны, но после завершения SDK для Python'а оно заменит применяемую сейчас библиотеку pycountry на использование этого справочника. а заодно даст возможность, при желании, обогащать датасеты дополнительными фильтрами и метаданными по привязкам к геоблокам, например, отфильтровывая датасеты только из стран Евросоюза или стран БРИКС или стран Лиги арабских государств.
Сейчас идет активный рефакторинг части кода Dateno, так что этот компонент будет там использоваться.
А, в целом, у него много применений. Самое очевидное про которое я все время говорю - это региональные блоковые рейтинги. Хочется сделать рейтинг стран по открытости внутри политических блоков? Без проблем. Хочется отрейтинговать страны ОЭСР по ВВП? Тоже несложно. И многое и многое другое, это справочник, упакованный в современные форматы.
Источники датасета: собственная база, Wikipedia, Wikidata, сайты межгосударственных организаций, реестры стран ООН и Всемирного банка.
Важная особенность в том что в перечне стран есть не только те что являются членами ООН, но и суверенные территории и непризнанные государства. Поэтому их 252, в основе был справочник Всемирного Банка, а он включает многие суверенные территории не являющиеся членами ООН.
Дальнейшее развитие:
1. SDK для Python
2. REST API возможно вместе с другими похожими справочными данными
3. Расширение на субрегиональный уровень по кодам ISO3166-2 (точно не первый приоритет)
4. Исправление ошибок и дополнения метаданных
#opendata #opensource #dateno #datasets
В репозитории находятся наборы данных в форматах JSONl, YAML, Parquet и база DuckDB в которых содержатся данные о 252 странах и 727 группах стран и межгосударственных организациях. Там же подробности про содержание и структуру базы, примеры доступа и другие подробности.
Эти наборы данных собираются из большого числа YAML файлов из папок data/countries и data/intblocks. В свою очередь эти YAML файлы вручную или автоматизированно обновляются. В частности чтобы собрать эту базу я взял свою базу межгосударственных организаций 5-летней давности, поправил вручную самое критичное и привел в порядок с помощью ИИ агентов Antigravity и Cursor, после чего снова поправил и в итоге собрал имеющиеся записи в наборы данных.
В Dateno сейчас частично используются часть этой логики используется для мэппинга датасетов на страны, но после завершения SDK для Python'а оно заменит применяемую сейчас библиотеку pycountry на использование этого справочника. а заодно даст возможность, при желании, обогащать датасеты дополнительными фильтрами и метаданными по привязкам к геоблокам, например, отфильтровывая датасеты только из стран Евросоюза или стран БРИКС или стран Лиги арабских государств.
Сейчас идет активный рефакторинг части кода Dateno, так что этот компонент будет там использоваться.
А, в целом, у него много применений. Самое очевидное про которое я все время говорю - это региональные блоковые рейтинги. Хочется сделать рейтинг стран по открытости внутри политических блоков? Без проблем. Хочется отрейтинговать страны ОЭСР по ВВП? Тоже несложно. И многое и многое другое, это справочник, упакованный в современные форматы.
Источники датасета: собственная база, Wikipedia, Wikidata, сайты межгосударственных организаций, реестры стран ООН и Всемирного банка.
Важная особенность в том что в перечне стран есть не только те что являются членами ООН, но и суверенные территории и непризнанные государства. Поэтому их 252, в основе был справочник Всемирного Банка, а он включает многие суверенные территории не являющиеся членами ООН.
Дальнейшее развитие:
1. SDK для Python
2. REST API возможно вместе с другими похожими справочными данными
3. Расширение на субрегиональный уровень по кодам ISO3166-2 (точно не первый приоритет)
4. Исправление ошибок и дополнения метаданных
#opendata #opensource #dateno #datasets
👍7✍2❤1🔥1
В рубрике полезных инструментов для сбора данных tdl (Telegram Downloader) инструмент командной строки,написан на Go, под лицензией AGPL-3.0, позволяет выгружать списки сообщений, сами сообщения и файлы и проводить другие манипуляции по выгрузке списков чатов, их участников и другой информации.
Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.
Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.
Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.
Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.
#opendata #opensource #digitalpreservation #data #tools
Выглядит как полезный инструмент для разных задач: мониторинга телеграм каналов, OSINT, создания наборов данных по тематикам и, конечно, цифровой архивации. Для последней задачи инструмент хорошо бы доработать и добавить команду "archive" для создания или обновления полного слепка данных, но можно и сделать надстройку над этой утилитой.
Что важно - это живая разработка, с 18 контрибьюторами, основной разработчик и часть контрибьютров китайскоязычные, видимо я пропустил когда в Китае Телеграм начал набирать популярность.
Мне лично нравится как сделан этот инструмент по архитектуре, логике команд, набору опций (выкачивать только сообщения, скачивать медиа) и так далее. Хотелось бы такой же, но универсальный для разных платформ и соцсетей или даже отдельные для других платформ сделанные по схожей логике. Для РФ скоро будет актуален инструмент для выгрузки чатов и каналов в MAX потому что у MAX'а нет открытой веб версии без авторизации как это есть у телеграм'а (пример - https://t.me/s/begtin) и все что создается внутри платформы не архивируется. Но это уже отдельная тема.
Пока же tdl полезный инструмент для телеграма и хорошая референсная реализация подобных инструментов для других задач.
#opendata #opensource #digitalpreservation #data #tools
GitHub
GitHub - iyear/tdl: 📥 A Telegram toolkit written in Golang
📥 A Telegram toolkit written in Golang. Contribute to iyear/tdl development by creating an account on GitHub.
👍12✍6⚡2❤1
Полезные ссылки про данные, технологии и не только:
- Yaak - GUI клиент для REST API, как альтернатива Postman, Insomnia, Apidog и другим. Из плюсов - открытый код под лицензией MIT и сравнительно небольшой размер всего 60МБ (удивительно мало для настольного приложения по нынешним временам). Автор явно нацелен на коммерциализацию, но пока берет плату только за коммерческое использование. По бизнес модели больше похоже на классическое приобретение лицензии на ПО, а не на подписочный облачный сервис
- Will there ever be a worse time to start a startup? - очередной отличный текст от Бена Стенсила о том что сейчас стоимость разработки падает на 10% ежемесячно и что для стартапов это реальный вызов и он задается вопросом: Не худшее ли сейчас время для запуска стартапа? Хороший вопрос, весьма точный. ИИ реально поглощает все что только можно
- Commission and European Investment Bank Group team up to support AI Gigafactories Евросоюз запланировал 20 миллиардов евро на ближайшие годы чтобы сравняться в ИИ гонке с США и Китаем. Как я понимаю из текста инвестиции планируются через Европейский инвестиционный банк (EIB) и расходы будут проводится открытыми тендерами.
- Wikipedia urges AI companies to use its paid API, and stop scraping команда Википедии продолжает призывать ИИ компании использовать их платное API, вместо скрейпинга. По мне так это глас вопиющего в пустыне потому
почти все ИИ агенты по умолчанию точно используют открытые дампы и контент с веб-страниц и чтобы они перестали это делать Википедии придется перестать быть собой и начать закрываться гораздо более агрессивно что не остановит ИИ боты, но приведет к ещё большей потере трафика. Не могу пока разглядеть в происходящем стратегии с потенциально позитивным исходом.
- AI in State Government доклад о применении ИИ в госуправлении в правительствах штатов США. Полезно большим числом примеров того как ИИ агенты и ИИ в принципе применяют. С оговоркой что доклад от аналитиков из подразделения IBM работающего с госухой в США, так что кейсы интересные, но как научную работу рассматривать не стоит. Скорее как анализ рынка консультантами.
#opendata #ai #wikipedia #government
- Yaak - GUI клиент для REST API, как альтернатива Postman, Insomnia, Apidog и другим. Из плюсов - открытый код под лицензией MIT и сравнительно небольшой размер всего 60МБ (удивительно мало для настольного приложения по нынешним временам). Автор явно нацелен на коммерциализацию, но пока берет плату только за коммерческое использование. По бизнес модели больше похоже на классическое приобретение лицензии на ПО, а не на подписочный облачный сервис
- Will there ever be a worse time to start a startup? - очередной отличный текст от Бена Стенсила о том что сейчас стоимость разработки падает на 10% ежемесячно и что для стартапов это реальный вызов и он задается вопросом: Не худшее ли сейчас время для запуска стартапа? Хороший вопрос, весьма точный. ИИ реально поглощает все что только можно
- Commission and European Investment Bank Group team up to support AI Gigafactories Евросоюз запланировал 20 миллиардов евро на ближайшие годы чтобы сравняться в ИИ гонке с США и Китаем. Как я понимаю из текста инвестиции планируются через Европейский инвестиционный банк (EIB) и расходы будут проводится открытыми тендерами.
- Wikipedia urges AI companies to use its paid API, and stop scraping команда Википедии продолжает призывать ИИ компании использовать их платное API, вместо скрейпинга. По мне так это глас вопиющего в пустыне потому
почти все ИИ агенты по умолчанию точно используют открытые дампы и контент с веб-страниц и чтобы они перестали это делать Википедии придется перестать быть собой и начать закрываться гораздо более агрессивно что не остановит ИИ боты, но приведет к ещё большей потере трафика. Не могу пока разглядеть в происходящем стратегии с потенциально позитивным исходом.
- AI in State Government доклад о применении ИИ в госуправлении в правительствах штатов США. Полезно большим числом примеров того как ИИ агенты и ИИ в принципе применяют. С оговоркой что доклад от аналитиков из подразделения IBM работающего с госухой в США, так что кейсы интересные, но как научную работу рассматривать не стоит. Скорее как анализ рынка консультантами.
#opendata #ai #wikipedia #government
GitHub
GitHub - mountain-loop/yaak: The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent…
The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent Events, and gRPC 🦬 - mountain-loop/yaak
👍5
К вопросу о том как и кто являются пользователями данных и как оценивать насколько тот или иной публичный дата продукт / каталог данных может использоваться.
Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)
2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения
3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.
Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.
К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.
#opendata #users #thoughts #data
Есть три основных категории пользователей и у каждой из них свой набор ожиданий :
1. Аналитики
- максимальная оперативность данных
- доступность данных в форматах привычных для работы (CSV, XLSX)
- возможность доступа к данным аналитическими и No code/Low code инструментами
- наличие данных по ключевым наиболее значимым темам (официальная и ведомственная статистика, например)
2. Исследователи
- доступность данных по научным дисциплинам, в открытом или регламентированном доступе (когда известно кого спросить, какие правила необходимо соблюсти и какие условия доступа к данным)
- наличие DOI у датасетов
- возможность работы с данными инструментами принятым в среде их научной дисциплины, разные для экономистов, биоинформатиков, физиков, геофизиков, астрономов и тд.
- наличие четкой прослеживаемости данных и методологии их получения
3. Разработчики и дата инженеры
- доступность данных через API
- доступность данных для массовой выгрузки (bulk download)
- доступность схем и структур данных
- наличие данных в современных форматах для выгрузки: сжатые CSV, Parquet и др.
- наличие предсказуемой инфраструктуры для интеграции с ETL/ELT системами получения данных
———
У этих 3-х групп есть ряд подгрупп которые имеют свою специфику:
- журналисты. Имеют те же требования что и аналитики, с меньшим погружением в технологии, с большим погружением в доступность данных.
- AI/ML инженеры. Помимо ожиданий разработчиков и дата инженеров у них еще присутствует потребность именно в данных большого объема для обучения, интегрируемость в стеки данных и интегрируемость в продуктами вроде Hugging Face
- статистики. Это не только сотрудники статслужб, но и профессиональные пользователи их данных. Они могут быть аналитиками и исследователями и тут важным становится наличие значимых метаданных и специальных стандартов и форматов SDMX, DDI и тд.
- геоаналитики и георазработчики. Подгруппы аналитиков и разработчиков с упором на геоданные, ключевое здесь это наличие возможности поиска данных по геопривязке, получению их в форме стандартизированных API ArcGIS/OGC и возможность выгрузки в наиболее востребованных форматах геоданных
—
Пользователь может быть в одной роли или хоть сразу в нескольких, важно то что любые публикуемые данные и создаваемые дата каталоги можно четко разметить по их потенциальным пользователям.
Эту структуру ролей пользователей можно и дальше декомпозировать, но смысл не изменится - любой дата портал можно оценить по ориентации именно по этим ролям.
К примеру, когда я ругаюсь в адрес российского портала data.gov.ru, то могу объяснить это довольно просто. Можно посмотреть на него глазами любой из перечисленных ролей/групп пользователей и убедиться что для их задач он непригоден.
#opendata #users #thoughts #data
👍16❤1✍1
Forwarded from Dateno
Open Data in Armenia: No National Data Portal - Yet
One of the most notable characteristics of Armenia’s open data landscape is the absence of a government-run national open data portal. This is especially interesting given that Armenia has been a member of the Open Government Partnership since 2011. However, the country’s transparency efforts historically focused more on public dialogue and civic participation rather than open data infrastructure.
Instead of an official portal, Armenia relies on a community-driven initiative - Open Data Armenia (data.opendata.am), which aggregates a wide range of datasets from both official national sources and international organizations.
Within the Dateno Data Catalog Registry, Armenia currently has 11 registered data catalogs (https://dateno.io/registry/country/AM/), which can be grouped as follows:
- 2 open data portals
- 6 geospatial data catalogs
- 3 statistical and microdata catalogs
Armenia’s official statistics are published via statbank.armstat.am, built on the open-source PxWeb platform. Unfortunately, this installation has not been updated for many years and does not provide a public API-unlike most modern PxWeb deployments. For this reason, the portal is not yet indexed by Dateno, unlike similar statistical portals in other countries.
At the same time, a significant amount of Armenian data is available through major international statistical platforms such as the World Bank, BIS, WHO, and others - and already indexed in Dateno.
Armenia is also home to another open data portal with a global scope: CryptoData (https://cryptodata.center/), which provides a large collection of cryptocurrency datasets. This project was also developed by the Open Data Armenia initiative.
Additional Armenian datasets can be found within the statistical systems of regional organizations where Armenia is a member - including CIS (https://new.cisstat.org) and EAEU (https://eec.eaeunion.org/comission/department/dep_stat/union_stat/) - as well as across numerous official government websites.
#opendata #armenia #Dateno
One of the most notable characteristics of Armenia’s open data landscape is the absence of a government-run national open data portal. This is especially interesting given that Armenia has been a member of the Open Government Partnership since 2011. However, the country’s transparency efforts historically focused more on public dialogue and civic participation rather than open data infrastructure.
Instead of an official portal, Armenia relies on a community-driven initiative - Open Data Armenia (data.opendata.am), which aggregates a wide range of datasets from both official national sources and international organizations.
Within the Dateno Data Catalog Registry, Armenia currently has 11 registered data catalogs (https://dateno.io/registry/country/AM/), which can be grouped as follows:
- 2 open data portals
- 6 geospatial data catalogs
- 3 statistical and microdata catalogs
Armenia’s official statistics are published via statbank.armstat.am, built on the open-source PxWeb platform. Unfortunately, this installation has not been updated for many years and does not provide a public API-unlike most modern PxWeb deployments. For this reason, the portal is not yet indexed by Dateno, unlike similar statistical portals in other countries.
At the same time, a significant amount of Armenian data is available through major international statistical platforms such as the World Bank, BIS, WHO, and others - and already indexed in Dateno.
Armenia is also home to another open data portal with a global scope: CryptoData (https://cryptodata.center/), which provides a large collection of cryptocurrency datasets. This project was also developed by the Open Data Armenia initiative.
Additional Armenian datasets can be found within the statistical systems of regional organizations where Armenia is a member - including CIS (https://new.cisstat.org) and EAEU (https://eec.eaeunion.org/comission/department/dep_stat/union_stat/) - as well as across numerous official government websites.
#opendata #armenia #Dateno
✍3
В рубрике как это устроено у них каталог API правительства Италии api.gov.it включает 13+ тысяч точек подключения к API с возможностью подключения через централизованную национальную платформу доступа к данным. По каждому API в избытке метаданных и описания.
Более 2 тысяч API относятся к муниципалитетам. Важное отличие от российских СМЭВов в том что это в первую очередь систематизация имеющихся API, а не унификация под стандарты предоставления госуслуг поэтому через такие API доступны многие сервисы доступа к данным, геоданным и тд.
Для каждого API есть указание условий доступа, когда оно полностью открыто, а когда требует подтверждения представительства госоргана или компании работающей по госконтракту или иных требований.
Среди этих API есть открытый интерфейсы исследовательских центров, университетов и многих других учреждений.
Италия не единственная страна с таким каталогом API, они есть ещё во Франции, Великобритании, Сингапуре и многих других развитых странах. Ключевые их цели - в снижении барьера для доступа ИТ компаний к рынку автоматизации государства, возможности разработчиков внутри госорганов и госучреждений для доступа к данным и сервисам и предоставление доступа к данным и сервисам для широких слоёв пользователей.
Я такие каталоги API вношу в реестр Dateno наравне с каталогами данных и вскоре добавлю и этот каталог.
#opendata #API #italy #government #interoperability
Более 2 тысяч API относятся к муниципалитетам. Важное отличие от российских СМЭВов в том что это в первую очередь систематизация имеющихся API, а не унификация под стандарты предоставления госуслуг поэтому через такие API доступны многие сервисы доступа к данным, геоданным и тд.
Для каждого API есть указание условий доступа, когда оно полностью открыто, а когда требует подтверждения представительства госоргана или компании работающей по госконтракту или иных требований.
Среди этих API есть открытый интерфейсы исследовательских центров, университетов и многих других учреждений.
Италия не единственная страна с таким каталогом API, они есть ещё во Франции, Великобритании, Сингапуре и многих других развитых странах. Ключевые их цели - в снижении барьера для доступа ИТ компаний к рынку автоматизации государства, возможности разработчиков внутри госорганов и госучреждений для доступа к данным и сервисам и предоставление доступа к данным и сервисам для широких слоёв пользователей.
Я такие каталоги API вношу в реестр Dateno наравне с каталогами данных и вскоре добавлю и этот каталог.
#opendata #API #italy #government #interoperability
👍8✍2❤1
Forwarded from Open Data Armenia
Для тех кто интересуется статистикой Республики Армения мы опубликовали парсер данных Банка статистики Армстата statbank.armstat.ru, он доступен как открытый код в репозитории statbank-parser на языке Python и позволяет выгрузить более 900 индикаторов включая метаданные и данные по каждому индикатору в формате CSV.
Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.
Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.
Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.
Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.
#opendata #statistics #armstat
Пока эти данные не загружены в data.opendata.am, но мы их обязательно добавим в будущем.
Хотя сам статбанк построен на продукте PxWeb новые версии которого предоставляют API, в Армстате до сих пор используется очень древняя его версия и с парсером пришлось повозиться чтобы эффективно парсить содержимое с веб-страниц.
Надеемся эти данные пригодятся энтузиастам, исследователям и экономистам.
Если у вас возникнут сложности с выгрузкой данных, напишите, в issues проекта, поправим код и, при необходимости, выложим дамп с данными.
#opendata #statistics #armstat
❤3
В рубрике интересных каталогов данных сеть порталов для публикации онтологий:
- https://biodivportal.gfbio.org/ - портал по онтологиям по биоразнообразию
- https://bioportal.bioontology.org/ - портал биомедицинским онтологиям
- https://technoportal.hevs.ch/ - репозиторий онтологий по технологиям и инженерии
- https://earthportal.eu/ - портал онтологий по наукам о Земле.
- ... и многие другие
Полный их список можно найти на сайте продукта с открытым кодом OntoPortal на котором они созданы. Их особенность в том что это порталы метаданных/справочников с описанием разного рода сложных понятий, весьма распространенные в биоинформатике в первую очередь и чуть меньше в других науках.
Их можно относить к каталогам данных, я их также вношу в реестр каталогов данных Dateno и их также можно индексировать в поисковой системе, хотя объём проиндексированного будет невелик, но полезен для некоторых категорий пользователей.
#opendata #datasets #data #datacatalogs #ontologies #linkeddata
- https://biodivportal.gfbio.org/ - портал по онтологиям по биоразнообразию
- https://bioportal.bioontology.org/ - портал биомедицинским онтологиям
- https://technoportal.hevs.ch/ - репозиторий онтологий по технологиям и инженерии
- https://earthportal.eu/ - портал онтологий по наукам о Земле.
- ... и многие другие
Полный их список можно найти на сайте продукта с открытым кодом OntoPortal на котором они созданы. Их особенность в том что это порталы метаданных/справочников с описанием разного рода сложных понятий, весьма распространенные в биоинформатике в первую очередь и чуть меньше в других науках.
Их можно относить к каталогам данных, я их также вношу в реестр каталогов данных Dateno и их также можно индексировать в поисковой системе, хотя объём проиндексированного будет невелик, но полезен для некоторых категорий пользователей.
#opendata #datasets #data #datacatalogs #ontologies #linkeddata
👍2