Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересные наборы данных, Table Union Search on Open Data, научная статья [1] и база данных [2] с фокусом на автоматизацию объединения табличных данных. Исследование о том можно ли и насколько эффективно можно объединять разные табличные данные по полям которые кажутся идентичными, совпадающими.

Задача эта, во многом про автоматизацию выявления метаданных, задача, безусловно интересная и очень про качество публикации данных и дальнейшее использование. Типовой пример, нужно собрать все данные по российскому региону из всех опубликованных открытых данных. При том что могут отличаться наименования полей.

Несмотря на то что статье более 3-х лет и результаты анализа на основе таблиц из порталов открытых данных 3-х летней давности, актуальности задачи не теряет. Отчасти жаль лишь что опубликовано маловато кода, может быть авторы делают коммерческий продукт, правда 3 года прошло.

Ссылки:
[1] http://www.vldb.org/pvldb/vol11/p813-nargesian.pdf
[2] https://github.com/RJMillerLab/table-union-search-benchmark

#opendata #dataquality #data
К вопросу об интересных наборах данных и их сохранности. После обновления системы ЕГИСУ НИОКТР (Единая государственная информационная система учета результатов научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) [1] из раздела открытые данные исчезла возможность выгрузки данных до 2016 года, а также изменился сам формат выгрузки данных. Если ранее это были XML дампы (без схем и документации), то сейчас это JSON дампы, также, без схем и документации.

Масштаб изменений пока измерить сложно потому что в новых выгрузках данных в ЕГИСУ много ошибок. Но старые данные, до 2016 года в них не находятся.

Архив этих данных у нас, конечно, есть, но это ещё один сигнал о необходимости архивации открытых данных.

Ссылки:
[1] https://rosrid.ru

#opendata #data #dataquality