Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].
В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.
Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.
Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/
#dqm #dataops #uber #argos
В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.
Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.
Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/
#dqm #dataops #uber #argos