Ivan Begtin
9.07K subscribers
2.52K photos
4 videos
114 files
5.3K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Как устроены веб-архивы в мире?

Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].

Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․

Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.

Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].

Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection

#webarchives #australia #digitalpreservation
👍3🥰1
В рубрике как это работает у них Атлас биоразнообразия Австралии [1]

Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.

В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.

В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].

А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.

При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core

Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/

#opendata #datasets #australia
👏7👍3
Австралийская схема данных (DATA Scheme) [1] - это концепция доступа к данным продвигаемая их офисом национального комиссара по данным. В Российской логике наименований это звучало бы примерно как "Уполномоченный по данным", поскольку должность персонализированная.

В основе схемы модель взаимодействия с потребителями данных в части предоставления доступа к чувствительным госданным через аккредитацию сервис провайдеров и пользователей.А также определение списка "дата стражей" (data custodians), органов власти отвечающих за доступ к определенным данным.

Особенность в том что это не открытые данные, а данные доступные на определенных условиях. На каких-то ранних стадиях обсуждалось что доступ будет, также, у бизнеса, но в финальной схеме описывается модель с доступом к данным у органов власти и университетов.

Всё это можно сравнить с российской инициативой НСУД (Национальная система управления данными) с той разницей что в австралийской модели всё происходит через специальную платформу Data Place. Она, фактически, работает скорее по академической модели предоставления доступа к чувствительным данным, запросы и обоснованные отказы или согласия.

При этом, австралийское правительство явным образом обещает что если запрашиваемые данные не будут чувствительными, то они готовы публиковать их на data.gov.au, портале открытых данных Австралии [3]


Ссылки:
[1] https://www.datacommissioner.gov.au/the-data-scheme
[2] https://www.dataplace.gov.au/
[3] https://www.dataplace.gov.au/articles/KA-01031

#opendata #australia #datasharing
👏3🤡3👍1👎1
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.

Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.

На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]

Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.

Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir

#china #technology #australia #data #ratings
👍12👏2
Цифровые гуманитарные проекты (digital humanities) - это необязательно древняя история, они могут быть посвящены и самому что ни на есть настоящему. Например, AusStage. The Australian Live Performance Database
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок

Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.

Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.

А самые актуальные вносятся за 2023 год довольно оперативно.

Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230

#digitalhumanities #culture #australia #open #digitalpreservation
12👍5🔥2
В рубрике как это устроено у них, экспериментальный австралийский проект их департамента финансов (аналог Министерства финансов в РФ и постсоветских странах) по созданию так называемого финансового графа по органам власти Австралии. С атрибутами, свойствами и характеристиками органов власти с точки зрения их участия в бюджетном процессе. Можно посмотреть вживую на structure.gov.au [1]

В России похожий проект был в виде реестра участников и неучастников бюджетного процесса, но только связанных данных там не было, но информации значительно больше публиковалось и частично публикуется.

В мире такие проекты редкость, сложные формальные реестры - это одна из областей где применение связанных данных оправданно и логично, хотя и от конечного неквалицированного пользователяь оторвано.

Для тех кто любит оперировать смыслами понятий в госуправлении и управлении бюджетными процессами - это сложная и интересная штука.

Ссылки:
[1] https://structure.gov.au/body/department-finance

#opendata #linkedata #govfinances #government #australia
🔥7👍2
В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.

Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].

Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.

А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].

TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.

Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/


#opendata #geodata #spatial #dataviz #data #australia #opensource
👍12🤩2
В рубрике как это устроено у них TERN Data Discovery Portal [1] в Австралии, портал открытых исследовательских данных созданный в рамках проекта Terrestrial Ecosystem Research Network на базе Университета Квинсленда и поддерживаемый в рамках National Collaborative Research Infrastructure Strategy.

На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.

Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/

#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
👍4🔥211
В рубрике как это устроено у них портал исследовательских данных Австралии researchdata.edu.au

Включает 224 тысячи наборов данных из которых 96 тысяч доступны онлайн.

Портал является поисковой системой по десяткам академических репозиториев, архивов, госпорталов открытых данных и геопорталам.

Он более похож на Dateno, позволяя искать по 9 видам фасетов (фильтров).

Кроме данных в нём также доступен поиск по исследовательским проектам, персонам и организациям, сервисам и программным продуктам и так далее.

Большая часть материалов опубликованы под свободными лицензиями.

Это довольно много, для сравнения в Dateno присутствует 676 тысяч наборов данных относящихся к Австралии, преимущественно относящихся к порталам открытых данных и геопорталам.

При этом в Dateno до сих сильно меньше исследовательских данных, в основном по той причине что по исследовательским данным есть много альтернативных инструментов поиска. Поэтому Research Data и Dateno скорее дополняют друг друга и скорее всего индексировать именно этот портал мы не будем, а вот индексировать первоисточники индексируемые Research Data определенно стоит.

Кроме того в Research Data практически нет статистических данных и временных рядов, кстати, не знаю почему, в Австралии довольно продвинутые системы публикации официальной статистики.

#opendata #datacatalogs #australia
31
А Ваш ИИ умеет отслеживать галлюцинации ИИ в сдаваемых Вам отчетах? Нет? А пора бы. Делойт вернул австралийскому правительству $440 тысяч за галлюцинации. Доверие докладу подорвано, а у Делойта определённо есть проблема с человеческим интеллектом.

Скоро ли ждать проектов по мониторингу госдокументов и документов подобных отчетов с отслеживанием галлюционаций ?

#ai #deloitte #consulting #australia
👍14😁85
В рубрике как это устроено у них портал открытых данных Австралии data.gov.au. Относительно недавно его обновили и обратно мигрировали на CKAN с ранее разработанного австралийцами же дата каталога Magda. Почему мигрировали, кстати, я до сих пор в загадках. Magda интересный проект агрегации данных, но довольно сложный технически, может быть из-за этого.

Как бы то ни было сейчас на портале данных Австралии 97 тысяч наборов данных большая часть которых это геоданные, в первую очередь данные о Земле из Geoscience Australia.

Но всей картины открытых данных в Австралии это не покрывает поскольку де-факто Австралия скорее конфедеративная чем федеративная страна, много данных там на уровне отдельных штатов. И в том же Квинсленде на портале открытых данных www.data.qld.gov.au 188 тысяч наборов данных, а на портале геоданных Квинсленда geoscience.data.qld.gov.au ещё 187 тысяч наборов данных.

Всего в Dateno у нас проиндексировано более 548 тысяч наборов данных в Австралии из местных и международных порталов с данными.

Главная особенность Австралии как и большей части развитых стран - это то что геоданные составляют от 50 до 90% всех публикуемых наборов данных.

И, конечно, необходимо учитывать что его огромный пласт открытых научных данных который в Dateno пока представлен не полностью и если охватить и эти данные то в Австралии число открытых наборов данных легко достигнет 800-900 тысяч наборов данных, если не больше

#opendata #australia #datacatalogs
🔥41