Ivan Begtin
9.31K subscribers
2.09K photos
3 videos
102 files
4.82K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В феврале я писал о том что федеральные органы власти очень халтурно публикуют данные из информационных систем в их ведении. Причём на фоне разговоров про цифровую трансформацию - это всё несколько комично.

Например, в феврале этого года я писал [1] про то что Минцифра очень халатно относится к ведению реестра аккредитованных ИТ компаний и не обновляли его 5 лет. Как думаете что произошло? Его начали обновлять и даже обновили в марте, апреле и в мае, а потом на него забили и не обновляли аж до августа месяца. А то что опубликовали в августе [2], а то что опубликовано вместо кодов ОГРН значения вроде "1,05E+12". Как так получается? Так получается когда экспорт данных делают: а) Из Excel. б) Без знания Excel. в) Не перепроверяют.

Буду краток: работа халатная, сроки нарушены, данные непригодны.

P.S. В реестре в Excel тоже есть ошибки и их, ожидаемо, не исправили.

Ссылки:
[1] https://t.me/begtin/2595
[2] https://digital.gov.ru/opendata/7710474375-registergosaccred/download/

#opendata #dataquality
Интересные стартапы анализа качества данных и качества потоков данных, развивающиеся в мире, но пока малоприменимые в России.

* Metaplane - позиционируют себя как Datadog для данных, позводяют отслеживать резкие изменения в потоках данных и предупреждать при их возникновении. Подключаются к облачным хранилищам и сервисам вроде Amazon Redshift, Snowflake, Google BigQuery, dbt, Looker. Публикуют полезный обзор State of data quality monitoring
* Anomalo - сервис мониторинга аномалий в данных, на текущий момент существует в виде концепта/прототипа/демо, обещают высокую автоматизацию, если даже не автоматическое выявление аномалий в потоках данных
* Data Fold - сервис каталогизации, систематизации данных и предупреждений при нарушениях в потоках данных. У них фокус на такое явление как data outages - задержки в поставках данных и оперативное реагирование. Сервисы с которыми интегрируются практически те же что и у Metaplane
* Databand - платформа для наблюдаемости данных, data observability, с большим списком интегрируемых сервисов и системами предупреждений при аномалиях

Почему практически все они малоприменимы в Росии? Такие платформы оказываются полезны только когда компания уже перенесла или переносит мощности по обработке данных в облака. Когда хранение данных уже вынесено из внутрикорпоративного контура, гораздо легче принимается решение о их внешнем мониторинге и обработке. В России этот тренд всё ещё не настолько проявляется, но постепенно он формируется.

#observability #data #dataquality