Ivan Begtin
7.98K subscribers
1.79K photos
3 videos
101 files
4.5K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Мало кто знает что Тим Бернерс Ли, рыцарь британской империи, изобретатель World Wide Web и один из основателей Open Data Institute в Великобритании ещё и является активным разработчиком.

В его аккаунте на Github'е можно увидеть его активность [1]. С одной стороны это очень хорошо, он значительный контрибьютор и создатель кода по связанным данным, а сейчас и разработка идёт на проектом Solid, по декомпозиции веба таким образом чтобы пользователь сохранял контроль над своими данными, а с другой стороны проект хартии открытых данных выглядит заброшенным [2].


Ссылки:
[1] https://github.com/timbl/
[2] https://opendatacharter.net/

#linkeddata #opendata
Тем временем в мире открытых данных данных всегда была и есть тема которой много в научном мире за пределами России и мало у нас. Это тема связанных данных (Linked Data).

На LOD Cloud [1] собрана большая база всех наборов данных превращенных в связанные данные. Задача эта трудоёмкая, но успешно решаемая теми кто создает открытые данные как результат научной деятельности или как результат общественной ценности. На январь 2019 год в LOD Cloud 1,234 набора данных в центре которых находится DBPedia [2] и другие проекты фонда Wikimedia.

Несмотря на высокий порог входа на использование данных в связанной форме и несмотря на сложности с публикацией - число наборов данных растёт.

От себя добавлю что лично я много лет занимался этой темой и отошел от неё только по той причине что не вижу прямого (быстрого) применения связанных данных в бизнесе и общественных проектах. Но в науке они являются стандартом-де-факто во многих областях: биология, лингвистика и др.

Ссылки:
[1] http://lod-cloud.net
[2] http://dbpedia.org

#opendata #linkeddata
Обновлённый сайт официальной статистики Шотландии [1] теперь полностью data-ориентированный.
Основной акцент сделан на доступности наборов данных, возможности выгрузить их в CSV и форматах связанных данных (N-Triples), а также на работе с данными через API. Много руководств и разъяснений о том как пользоваться API, выгружать наборы данных и многое другое.

Всё это на программном продукте Swirrl [2] в котором изначально заложен механизм работы со связанными данными.

Пример применения этого движка можно увидеть и на сайте муниципальной статистики Великобритании [3]

Я лично считаю что в основе любой статистической системы сейчас должен быть принцип data-first (вначале данные). Всё остальное: визуализация, интерпретация и анализ - должны быть основаны на опубликованной методологии, не более того.

Ссылки:
[1] https://statistics.gov.scot/home
[2] http://www.swirrl.com/
[3] http://opendatacommunities.org

#opendata #linkeddata
OpenCitation один из крупнейших инфраструктурных проектов по сбору данных о научном цитировании [1] на декабрь 2020 года включает:
- 60 778 357 библиографических ресурсов;
- 759 516 507 ссылок на цитаты.

Общим объёмом в 3 терабайта данных в форматах N-Triple, Scholix, CSV. [2]

Проект осуществляется при поддержке The Global Sustainability Coalition for Open Science Services (SCOSS) [3], одна из глобальных инициатив по поддержке открытости науки.

Для тех кому сложно развернуть собственную инфраструктуру, в проекте также предусморена доступность всех данных через REST API и SPARQL, а также как связанных данных [4].

В принципе можно обратить внимание что открытых наукометрических баз данных становится всё больше, а также растёт их финансирование и поддержка исследовательскими центрами. Становится интересно когда будет происходить качественных переход одного из таких проектов до уровня конкуренции с коммерческими наукометрическими системами.

Ссылки:
[1] http://opencitations.net
[2] http://opencitations.net/download
[3] https://scoss.org/
[4] http://opencitations.net/querying

#openaccess #opendata #linkeddata
В последнее время я вижу всё больше попыток создания языков запросов в противовес SQL, как альтернатива или как расширение языка. И тут я не могу не вспомнить что такая большая попытка предпринималась ещё давно - это SPARQL (the standard query language and protocol for Linked Open Data on the web or for RDF triplestores) [1].

Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.

Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.

Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.

Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.

При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.

А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?

Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/

#opendata #sparql #linkeddata #semanticweb
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].

Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.

Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.

В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много

Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/

#opendata #czech #dataportals #linkeddata #datacatalogs #europe
В рубрике как это устроено у них каталоги связанных данных в мире. Их немного, но они есть.

ASCDC LOD Datasets Platform [1
Платформа публикации связанных данных от тайваньской Academia Sinica Center for Digital Cultures

13 наборов данных и 633,847 записей

Universal Dependencies [2
Проект по аннотированию грамматики различных языков с наборами данных под эти языки. Более 250 наборов данных.

Ссылки:
[1] https://data.ascdc.tw
[2] https://universaldependencies.org

#opendata #linkeddata #datacatalogs