По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Дажечёртов Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Даже
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
1👍15❤2
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
👍3✍2
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
⚡6✍2
В рубрике как это устроено у них 国家公共数据资源登记平台 (Национальная платформа регистрации общедоступных данных Китая) sjdj.nda.gov.cn.
Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.
У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.
При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.
#opendata #china #datacatalogs
Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.
У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.
При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.
#opendata #china #datacatalogs
✍2🔥2⚡1
Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.
В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.
#opendata #startups #datacatalogs
В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.
#opendata #startups #datacatalogs
✍4👍3💯1
В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
🔥4❤1
В рубрике как это устроено у них BioImage портал с ИИ моделями для анализа биоизображений, приложениями на основе этих моделей и наборами данных используемыми исследователями для разработки этих моделей. Создаётся в AI4Life consortium за счёт поддержки Евросоюза (программа Horizon). Большая часть каталога наборов данных собрана из разбросанных по сайтам исследовательских центров датасетов, порталов с данными вроде Zenodo и тд.
#opendata #datacatalogs #datasets #eu #openaccess
#opendata #datacatalogs #datasets #eu #openaccess
👍3
Открытые данные постсоветских стран. Часть 1
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.
В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан
#datacatalogs #opendata #data #datasets
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee встроенный в европейские инициативы, 5651 набор данных с акцентом на статистику, но в целом довольно разнообразный. Задекларированная инициатива по наборам данных особой ценности (HVD), но сами наборы данных пока не опубликованы. Портал собственной разработки
- Латвия. Портал данных data.gov.lv также встроен в европейские инициативы, работает на базе CKAN, всего 1425 набора данных. Довольно много геоданных, не меньше трети всего опубликованного и раздел с особо ценными наборами данных, как на всех европейских порталах данных
- Литва. Портал данных data.gov.lt. Всего 2743 набора данных, портал собственной разработки, интеграция в европейские инициативы по открытым данным. Много геоданных и, также, отдельный раздел для особо ценных наборов данных
- Молдова. Портал данных dataset.gov.md содержит 1274 набора данных, преимущественно в Excel, Word и PDF форматах (не очень то и машиночитаемо) и совсем не выглядит системно организованным. Не интегрирован в европейские инициативы и выглядит скорее как плохо организованный
- Украина. Портал данных data.gov.ua включает 39 тысяч наборов данных, существенная часть которых собирается с областных и городских порталов открытых данных. Все работает на CKAN и используется харвестинг CKAN'а для агрегации на центральный портал. Большая часть данных в форматах Excel, Word, PDF, геоданных довольно мало, наборы данных особой ценности отдельно не выделены
- Казахстан. Портал данных data.egov.kz включает 3824 набора данных. создан на некой собственной платформе, важная особенность - крайне жёсткие ограничения на выгрузку данных которые доступны или только для граждан страны или с выгрузкой не более 100 записей за раз. Наборы данных особой ценности никак не обозначены, геоданные отсутствуют, работает не по принципу агрегации, а через загрузку данных органами власти (в Казахстане почти нет региональных и городских порталов с данными).
- Узбекистан. Портал data.egov.uz декларируется 10 тысяч наборов данных, но я ранее писал о том что не так с этим порталом и с тех пор ничего не изменилось. Огромное число датасетов создано через искусственное дробление наборов данных, реальный объём данных на портале очень скромный. Декларируются данные для AI, но на проверку это не датасеты для data science, а маленькие базы данных предоставляемые через API.
В следующем посте: Беларусь, Армения, Грузия, Азербайджан, Россия, Кыргызстан, Туркменистан, Таджикистан
#datacatalogs #opendata #data #datasets
1✍7❤2
Открытые данные постсоветских стран. Часть 2
Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1
- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало
#datacatalogs #opendata #data #datasets
Продолжаю обзор порталов открытых данных постсоветских стран, начало можно прочитать в части 1
- Беларусь. Портал данных в Республике Беларусь существовал только непродолжительное время в декабре 2021 года по адресу data.gov.by (сейчас недоступен) и всё что о нем осталось в сети доступно в Интернет Архиве. Поэтому можно исходить из того что портала открытых данных в стране нет.
- Армения. В Армении как и в Беларуси нет своего госпортала открытых данных, даже при том что страна имеет свой план открытости в рамках OGP, открытые данные туда не входят. Существует только негосударственный портал data.opendata.am без какой-либо господдеркжи
- Грузия. В Грузии до февраля 2025 года существовал портал открытых данных data.gov.ge (сейчас недоступен), его упоминание есть в Интернет архиве. Что с ним случилось, его причины закрытия неизвестны.
- Азербайджан. Портал открытых данных существовал до апреля 2025 года по адресу opendata.az, сейчас недоступен, информация сохранилась в Интернет архиве. В целом на портале публиковались только немногочисленные административные данные, без существенных статистических данных, без геоданных и тд.
- Россия. Портал открытых данных data.gov.ru открылся летом 2025 года и включает сейчас около 7600 наборов данных. На портале отсутствуют геоданные, отсутствуют данные высокой ценности, почти все данные можно отнести к административным данным, не имеющим прямого практического применения. Важные особенности - общий объём данных в сжатом виде около 150МБ и подавляющее число наборов данных устарели от 2 до 10 лет назад.
- Кыргызстан. Портал data.gov.kg изначально сделан на CKAN, без специальных настроек, без геоданных, без наборов данных особой ценности. Сейчас недоступен, общий объём опубликованных данных всегда был невелик качественно и количественно.
- Туркменистан. Портала открытых данных страны никогда не существовало
- Таджикистан. Портала открытых данных страны никогда не существовало
#datacatalogs #opendata #data #datasets
Telegram
Ivan Begtin
Открытые данные постсоветских стран. Часть 1
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee…
Я периодически посматриваю на порталы открытых данных постсоветских стран, мало что меняется. Я разделил этот текст на две части чтобы уместиться в формат в телеграме.
- Эстония. Портал данных andmed.eesti.ee…
👍5✍4❤1
В рубрике как это устроено у них не вполне обычный каталог открытых данных и не только Digital Public Goods Registry реестр цифрового общего блага от множества структур ООН, пр-в разных стран и международных организаций. Включает большое число продуктов с открытым кодом, открытых систем ИИ, свободного контента и открытых данных. Например, туда входят Wikipedia и Wikidata, дистрибутив Linux - SUSE, множество порталов открытых данных и наборов данных.
Продукты с открытым кодом варьируются от совершенно бесполезных сделанных когда на гранты и необновляемых с тех пор и до очень активных и обновляемых - CKAN, Typo3, TrueNAS.
Для тех проектов у которых код на Github показывают график обновлений (странно что по Gitlab ещё не научились).
Все материалы публикуются в привязке к целям устойчивого развития ООН и согласно стандарту.
Я регулярно вижу как на разных площадках многие владельцы открытых продуктов анонсируют что их добавили в этот реестр и склонен полагать что причина в том что наличие продукта там может быть дополнительным обоснованием для получения грантового финансирования их проекта/продукта.
Возвращаясь к данным - там перечислено их относительно немного, 25 дата порталов и наборов данных, что впрочем не означает что их список не расширится в будущем.
Проектов из России там нет, есть проекты из Казахстана и Армении (их код не обновлялся очень давно).
#opendata #datacatalogs #opensource
Продукты с открытым кодом варьируются от совершенно бесполезных сделанных когда на гранты и необновляемых с тех пор и до очень активных и обновляемых - CKAN, Typo3, TrueNAS.
Для тех проектов у которых код на Github показывают график обновлений (странно что по Gitlab ещё не научились).
Все материалы публикуются в привязке к целям устойчивого развития ООН и согласно стандарту.
Я регулярно вижу как на разных площадках многие владельцы открытых продуктов анонсируют что их добавили в этот реестр и склонен полагать что причина в том что наличие продукта там может быть дополнительным обоснованием для получения грантового финансирования их проекта/продукта.
Возвращаясь к данным - там перечислено их относительно немного, 25 дата порталов и наборов данных, что впрочем не означает что их список не расширится в будущем.
Проектов из России там нет, есть проекты из Казахстана и Армении (их код не обновлялся очень давно).
#opendata #datacatalogs #opensource
✍6🤔2❤1