В рубрике как это устроено у них портал открытых данных Ирана data.gov.ir
Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.
Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.
Лицензии на данные не указывают, структурированного хранилища там тоже нет.
В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.
#opendata #datasets #iran #ckan
Включает 11675 наборов данных, от 32 организаций. Внутри построен на CKAN.
Большая часть данных - это статистика, форматы включают Excel, PDF, а также карты, обычно в JPEG'ах.
Лицензии на данные не указывают, структурированного хранилища там тоже нет.
В текущем виде он появился он относительно недавно, ранее там был какой-то свой движок и только геоданные, а теперь появилось какое-то количество статистики и данных в Excel.
#opendata #datasets #iran #ckan
✍4👍3⚡2🤔1
В качестве регулярных напоминаний в основе поисковика Dateno реестр почти всех существующих каталогов с данными. Этих каталогов много, более 10 тысяч и большая их часть - это каталоги геоданных, вторые по количеству - порталы открытых данных и далее научные репозитории, базы индикаторов и так далее.
Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.
Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.
#opendata #dateno #datasets #datadiscovery
Ценность этого репозитория не только в том что он помогает индексировать датасеты, но и в том что он позволяет понять национальным пр-вам и их уполномоченным органам какие данные можно было бы собирать на едином/центральном портале.
Кроме того этот реестр - это подсказка для тех кто ищет данные по своей стране и возможность находить, в том числе, те данные которые пока ещё не проиндексированы в Dateno.
#opendata #dateno #datasets #datadiscovery
⚡4
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)
#opendata #datasets #geodata
#opendata #datasets #geodata
🔥20🤩2
В Южной Корее правительство планирует в ближайшее время опубликовать 15 особо ценных наборов данных для обучения ИИ и корпоративной поддержки. Первые данные необходимы для обучения ИИ агентов, например, в области LegalTech, вторые для типовых задач решаемых корпорациями и для которых нужны государственные данные. Обещают безопасное открытое раскрытие данных с заменой персональных данных на синтетические.
Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr
В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.
#opendata #korea #datasets
Всего же в Южной Корее опубликовано более 100 тысяч наборов данных и открытых API на национальном портале www.data.go.kr
В Корее есть совершенно чёткий акцент на данные востребованные бизнесом и на коммуникацию с бизнесом заинтересованном в данных и этой стратегии там придерживаются довольно давно.
#opendata #korea #datasets
❤7
В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
🔥4❤1
Я какое-то время назад писал про практики публикации данных и некоторые базовые стандарты описания наборов данных такие как DCAT, Schema.org и карточки CKAN, но, на самом деле их гораздо больше. Наборы данных описываются всё более разнообразно и имеют немало специфики, в последнее время привязанной к применению для ИИ.
- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML
А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных
И это далеко не полный список.
#opendata #specifications #datasets #standards
- Croissant расширение спецификации Schema.org с метаданными привязанными к машинному обучению
- DSDL (Data Set Description Language) спецификация от китайской OpenDataLab для описания наборов данных для ML
- MRM3: Machine Readable ML Model Metadata свежая публикация с ещё одним стандартом метаданных для ML
А также:
- Data Package часть стандарта Frictionless Data, ориентирован на распространение данных в табличных форматах
- DDI (Data Documentation Initiative) спецификация для датасетов используемая в социологии, например. для данных опросов
- TEI (Text Encoding Initiative) спецификация из компьютерной лингвистики используемая для описания текстовых данных
- EML (Ecology Metadata Language) спецификация для описания наборов данных в экологии
- Dublin Core базовый стандарт для описания цифровых объектов, используется повсеместно в институциональных репозиториях в том числе для публикации данных
- CSV on Web стандарт для публикации CSV файлов онлайн, давно потерял в популярности, но всё еще используется
- geocore Format спецификация для публикации геоданных
- DataCite Metadata Schema спецификация сервиса DataCite для научных данных в целях научного цитирования и поиска
- FGDC Metadata Standards стандарты геослужбы США для публикации геоданных
- OGC® Catalogue стандарт публикации метаданных в сервисах Catalog Services for the Web (CSW) для геоданных
И это далеко не полный список.
#opendata #specifications #datasets #standards
Substack
Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
«Буду делать хорошо, и не буду — плохо». (Маяковский)
🔥2❤1🌚1
В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.
#opendata #datacatalogs #datasets #eu #openaccess
#opendata #datacatalogs #datasets #eu #openaccess
👍3
Открытые данные постсоветских стран. Часть 1
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.
В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан
#datacatalogs #opendata #data #datasets
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.
В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан
#datacatalogs #opendata #data #datasets
1✍7❤2
Открытые данные постсоветских стран. Часть 2
Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1
- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало
#datacatalogs #opendata #data #datasets
Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1
- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало
#datacatalogs #opendata #data #datasets
Telegram
Ivan Begtin
Открытые данные постсоветских стран. Часть 1
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee…
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee…
👍5✍4❤1
Большое обновление реестра каталогов данных в Dateno, это то про что я писал в части применения ИИ для обогащения базы в виде YAML файлов. Фактически вся база реестра каталогов данных была пересобрана и обогащена множеством дополнительных данных, но основное - это почти 2 тысячи новых каталогов данных большая часть которых - это сервисы ArcGIS в США, большая часть региональных и муниципальных властей.
Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.
Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.
#opendata #datasets #datacatalogs
Теперь больше всего каталогов данных сосредоточено в США, это 3977 каталогов, для сравнения в Евросоюзе их 3660 во всех странах включая страны Европейского таможенного союза, но не включая Великобританию.
Подавляющее число каталогов данных в реестре сейчас - это геопорталы и каталоги геоданных, их сейчас 7897, но важно помнить что там может быть очень мало записей, и наоборот есть порталы где датасетов миллионы, поэтому число каталогов данных говорит скорее о зрелости практик работы с данными, но не всегда о их количестве.
#opendata #datasets #datacatalogs
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
❤5