В рубрике как это устроено у них портал исследовательских данных Австралии researchdata.edu.au
Включает 224 тысячи наборов данных из которых 96 тысяч доступны онлайн.
Портал является поисковой системой по десяткам академических репозиториев, архивов, госпорталов открытых данных и геопорталам.
Он более похож на Dateno, позволяя искать по 9 видам фасетов (фильтров).
Кроме данных в нём также доступен поиск по исследовательским проектам, персонам и организациям, сервисам и программным продуктам и так далее.
Большая часть материалов опубликованы под свободными лицензиями.
Это довольно много, для сравнения в Dateno присутствует 676 тысяч наборов данных относящихся к Австралии, преимущественно относящихся к порталам открытых данных и геопорталам.
При этом в Dateno до сих сильно меньше исследовательских данных, в основном по той причине что по исследовательским данным есть много альтернативных инструментов поиска. Поэтому Research Data и Dateno скорее дополняют друг друга и скорее всего индексировать именно этот портал мы не будем, а вот индексировать первоисточники индексируемые Research Data определенно стоит.
Кроме того в Research Data практически нет статистических данных и временных рядов, кстати, не знаю почему, в Австралии довольно продвинутые системы публикации официальной статистики.
#opendata #datacatalogs #australia
Включает 224 тысячи наборов данных из которых 96 тысяч доступны онлайн.
Портал является поисковой системой по десяткам академических репозиториев, архивов, госпорталов открытых данных и геопорталам.
Он более похож на Dateno, позволяя искать по 9 видам фасетов (фильтров).
Кроме данных в нём также доступен поиск по исследовательским проектам, персонам и организациям, сервисам и программным продуктам и так далее.
Большая часть материалов опубликованы под свободными лицензиями.
Это довольно много, для сравнения в Dateno присутствует 676 тысяч наборов данных относящихся к Австралии, преимущественно относящихся к порталам открытых данных и геопорталам.
При этом в Dateno до сих сильно меньше исследовательских данных, в основном по той причине что по исследовательским данным есть много альтернативных инструментов поиска. Поэтому Research Data и Dateno скорее дополняют друг друга и скорее всего индексировать именно этот портал мы не будем, а вот индексировать первоисточники индексируемые Research Data определенно стоит.
Кроме того в Research Data практически нет статистических данных и временных рядов, кстати, не знаю почему, в Австралии довольно продвинутые системы публикации официальной статистики.
#opendata #datacatalogs #australia
⚡3✍1
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.
Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!
1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.
Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.
Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.
Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!
#irony #datacatalogs #opendata
Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!
1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.
Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.
Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.
Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!
#irony #datacatalogs #opendata
😁30👏16🤣12👍4❤3✍3🔥1
В рубрике интересных стартапов по работе с данными и малоизвестных каталогов данных.
Data.world когда-то один из первых общедоступных облачных каталогов данных. Отличался тем что предоставлял интерфейсы для визуализации и запросов к данным которые пользователи загружали на платформу, как правило в CSV или форматах.
Со временем облачная платформа осталась только после авторизации (но всё ещё работает), а основным способом монетизации стало внедрение платформы у крупных клиентов. Это редкий случай когда платформа изначально для открытых данных эффективна перешла в корпоративный сектор.
В общей сложности за 9 лет они подняли $132 миллиона инвестиций с последним раундом в 2022 году.
При этом их облачный каталог сообщества всё ещё доступен и там можно искать по более чем 133 тысячам наборов данных опубликованных за примерно, 10 лет.
#opendata #datacatalogs
Data.world когда-то один из первых общедоступных облачных каталогов данных. Отличался тем что предоставлял интерфейсы для визуализации и запросов к данным которые пользователи загружали на платформу, как правило в CSV или форматах.
Со временем облачная платформа осталась только после авторизации (но всё ещё работает), а основным способом монетизации стало внедрение платформы у крупных клиентов. Это редкий случай когда платформа изначально для открытых данных эффективна перешла в корпоративный сектор.
В общей сложности за 9 лет они подняли $132 миллиона инвестиций с последним раундом в 2022 году.
При этом их облачный каталог сообщества всё ещё доступен и там можно искать по более чем 133 тысячам наборов данных опубликованных за примерно, 10 лет.
#opendata #datacatalogs
👍7
Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.
Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.
1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.
Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.
А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.
Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.
P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.
#opendata #opensource #datacatalogs #russia
Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.
1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.
Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.
А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.
Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.
P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.
#opendata #opensource #datacatalogs #russia
✍7❤5🤣5😢2💯1
По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Дажечёртов Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.
Даже
На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме
#opendata #russia #datacatalogs
1👍14❤2
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
👍3✍2
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
⚡5✍2
В рубрике как это устроено у них 国家公共数据资源登记平台 (Национальная платформа регистрации общедоступных данных Китая) sjdj.nda.gov.cn.
Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.
У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.
При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.
#opendata #china #datacatalogs
Создан в National Data Administration (NDA) Китая, правительственной структуре отвечающей за регулирование данных в Китае. Публично анонсирован в марте 2025 г. и на сентябрь 2025 г. включает 17 313 зарегистрированных общедоступных наборов данных и 2984 набора открытых данных.
У этой платформы есть ряд существенных особенностей:
- регистрация на портале разрешена только для граждан и компаний Китая
- информации о внутренней работе поратала очень мало и вся она только на китайском языке
- непонятно доступны ли сами данные на портале для авторизованных пользователей, для неавторизованных они точно недоступны
- это именно портал общедоступных данных в нем есть разделы реестра общедоступных данных и открытых данных
- раздел с открытыми данными содержит ссылки на данные в первоисточниках, десятках порталов открытых данных и общедоступных данных органов власти и регионов Китая.
При всех ограничениях - это полноценный национальный портал данных, далеко не идеальный, в Китае есть немало открытых каталогов данных и агрегаторов датасетов сделанных более совершенно, однако теперь нельзя говорить что в Китае нет нац. портала данных.
#opendata #china #datacatalogs
✍2🔥2⚡1
Стартап с каталогами данных OpenDatSoft превратился на днях в компанию Huwise, а свой продукт теперь позиционируют как data product marketplace. Продукт у них довольно любопытный, структурированное храненилище данных с возможностью получения данных через API и в разнообразных форматах: JSON, CSV, Parquet, GeoJSON и др. Плюс довольно неплохой эксплорер данных с наглядным их просмотром и анализом. Часть внедрений этого каталога были внутрикорпоративные или в режиме компания + её партнёры, но не как каталоги открытых данных. Возможно они почувствовали что на корпоративном рынке денег больше и он выгоднее чем продолжать охватывать муниципалитеты и конкурировать за это с ArcGIS с их ArcGIS Hub.
В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.
#opendata #startups #datacatalogs
В любом случае это сдвиг с бизнес модели порталов открытых данных в дата каталоги/дата маркетплейсы для корпоративных задач. В 2022 году они привлекли $25 миллионов инвестиций, а в общей сложности за 10 лет $35 миллионов, на свой SaaS продукт. Интересно как он будет меняться дальше, но чем больше он отходит от открытости тем он менее интересен, поскольку есть альтернативы с открытым кодом.
#opendata #startups #datacatalogs
✍4👍3💯1
В рубрике как это устроено у них OpenDataLab китайский портал с открытыми данными для обучения ИИ, более всего напоминает Hugging Face, но с менее продвинутой инфраструктурой и сильным акцентом на данные на китайском языке, связанным с китайским языком, китайскими компаниями и так далее. Создан в 2022 году в Shanghai AI Lab и выбран как платформа для Chinese Large Model Corpus Data Alliance в 2023 году
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
На июнь 2024 года на платформе было доступно 80ТБ данных, а на сегодня там около 210ТБ большую часть которых составляли данные для обучения ИИ - видео, аудио, медиа и тексты.
Из особенностей, как и у Hugging Face, доступ к данным организован через утилиту командной строки и SDK на Python. При этом для получения данных необходимо завести аккаунт на платформе и ключ.
Этот портал один из примеров каталогов которые пока не индексируются в Dateno потому что невозможно дать прямые ссылки на файлы и поскольку он создан на нетиповом ПО.
С другой стороны небольшое число датасетов компенсируется их значимостью.
#opendata #china #datasets #data #datacatalogs
🔥4❤1