Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos
Во всех более менее серьёзных органах власти и компаниях принципы ведения реестров, на самом деле, понимают. И понимают даже в куда более широком смысле чем то что я тут описываю, поскольку ещё есть разного рода системы НСИ, вопросы миграции с унаследованных систем, технологические особенности и не только. Некоторые из таких органов сознательно забивают на малозначащее для них и делают акцент на более значащее. Например, в реестр участников и неучастников бюджетного процесса [3] в Федеральном казначействе полно нерелевантных сведений в виде email адресов и веб-сайтов организаций, но почти идеально вычищены все реквизиты, особенно лицевые счета. Потому что реестр нужен Казначейству именно для учета и согласованной работы со всеми лицевыми счетами.

В качестве завершения, качество сведений в информационных системах и реестрах вполне поддаётся оценке, а измерение качества вполне может быть сформулировано в руководство и даже, частично, автоматизировано. Ну а то насколько полон, актуален, доступен и учётен каждый конкретный реестр - это на совести исключительно людей ответственных за него.

Ссылки:
[1] http://fas.gov.ru/pages/activity/tariffregulation/federalnyij-informaczionnyij-reestr-garantiruyushhix-postavshhikov-i-zon-ix-deyatelnosti.html
[2] http://fias.nalog.ru
[2] http://fias.nalog.ru
[3] http://budget.gov.ru

#data #registry #quality #dataquality #dqm