Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто любит данные, связанные данные и утечки - свежий интересный набор данных. Exaptive [1] выложили Панамские бумаги в формате RDF на платформе data.world [2] и разместили пост о том как они это делали в блоге [3] с небольшой рекламой их Exaptive Studio и Cray Graph Engine (CGE) [4] для визуализации графовых баз данных.

Признаться я впервые вижу какое-либо применение CGE, тем более стартапом и, сразу, немного немало, а связанные данные и пока не могу понять дает ли их движок какую-либо реальную добавленную ценность.

А вот блог data.world [5] вполне могу порекомендовать для регулярного чтения. Data.world претендует на то чтобы стать Github'ом для данных и, вполне возможно, у них получится. Это один из стартапов за которым я лично пристально слежу.

Ссылки:
[1] https://exaptive.city
[2] https://data.world/exaptive/panama-papers
[3] https://blog.data.world/how-a-startup-analyzed-over-11-million-panama-papers-in-1-week-bcfe9ea76260
[4] https://www.cray.com/products/analytics/cray-graph-engine
[5] https://blog.data.world

Читайте также мой основной блог на русском языке https://zen.yandex.ru/id/5a315e1300b3dd77beb64261, на английском https://medium.com/@ibegtin, в телеграм https://t.me/begtin

#opendata #panamapapers #data #semanticweb
В том что касается Semantic Web и Linked Data всегда было немного коммерчески успешных проектов. Эти технологии продвигались W3C и Тимом Бернерсом-Ли, шкала в 4 и 5 звёзд открытости данных были привязаны как раз к их связности, но всегда побеждала прагматика и мало из владельцев данных сейчас публикует их в виде "связанных данных".

Одним из наиболее успешных стартапов в этой области была компания Metaweb со специализацией на интеграцие множества разных источников с возможностью интегрировать их в единую онтологическую модель на базе Википедии. В 2010 году их купил Google [1] за неназванные условия и вскоре в поиске Google появились подсказки с данными из Википедии, IMDB и других источников.

Этим июлем, стартап data.world [2] претендующий на то чтобы стать Github'ом для данных объявил о покупке стартапа Capsenta [3] специализировавшегося на онтологиях и семантическом вебе. Их продукты Ultrawrap NoETL и Gra.fo [4] были ориентированы на интеграцию и визуализацию связанных данных. Сумма сделки не разглашается. Но в любом случае, похоже, стоит ждать появления инструментов визуализации и интеграции пользовательских данных в Data.world, а сам Data.world может пойти по пути Metabase.

Из всех проектов которые претендовали на роль Github для данных - пока data.world наиболее перспективен, но и его судьба именно в этой роли далеко не предопределена. А вот чем больше там будет связанных данных и интеграции большего числа источников тем выше вероятность его покупки крупным игроком на рынке, тем же Alphabet/Google, или Amazon и последующая интеграция в их экосистему.

Ссылки:
[1] https://www.cnet.com/news/google-buys-metaweb-and-its-sprawling-database/
[2] http://data.world
[3] https://data.world/blog/weve-acquired-capsenta-to-bring-the-power-of-knowledge-graphs-to-companies-with-on-prem-data/
[4] https://gra.fo/

#data #opendata #semanticweb
В последнее время я вижу всё больше попыток создания языков запросов в противовес SQL, как альтернатива или как расширение языка. И тут я не могу не вспомнить что такая большая попытка предпринималась ещё давно - это SPARQL (the standard query language and protocol for Linked Open Data on the web or for RDF triplestores) [1].

Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.

Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.

Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.

Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.

При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.

А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?

Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/

#opendata #sparql #linkeddata #semanticweb
Свежее что почитать про данные

Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.

European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.

Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata

Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.

Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

#readings #data #opendata #wikidata #ontology #semanticweb
Для тех кто любит применять правильные термины, оказывается ещё в июле 2024 г. вышел словарь CODATA Research Data Management Terminology [1] с подборкой англоязычных терминов по управлению исследовательскими данными.

В принципе то термины там относительно универсальны, но определения даны через призму работу исследователей, поэтому корректно их воспринимать именно в контексте исследовательских данных, принципов FAIR и открытого доступа.

Например, определение открытых данных звучит как:

Data that are accessible, machine-readable, usable, intelligible, and freely shared. Open data can be freely used, re-used, built on, and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike.[2]

Этот словарь доступен через портал Research Vocabularies Australia [3] агрегатор и поисковик по всем словарям используемым в исследовательских целях в Австралии.

Ссылки:
[1] https://vocabs.ardc.edu.au/viewById/685
[2] http://vocabs.ardc.edu.au/repository/api/lda/codata/codata-research-data-management-terminology/v001/resource?uri=https%3A%2F%2Fterms.codata.org%2Frdmt%2Fopen-data
[3] https://vocabs.ardc.edu.au

#opendata #semanticweb #data #datacatalogs #terms