Ivan Begtin
9.11K subscribers
2.47K photos
4 videos
113 files
5.21K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech
О данных, веб-сайтах и том как с ними работают. Я рассказывал что веду архивацию госсайтов, в том числе самописными инструментами, которые архивируют данные из открытых API которые веб-краулеры не поддерживают. Такая утилита есть APIBackuper для сфокусированной архивации и ещё для 5 популярных CMS у которых такое общедоступное API есть по умолчанию. Некоторые владельцы сайтов это API по умолчанию сразу отключают, но у большинства оно доступно и через него можно скачивать весь тот же контент что есть на сайте, только быстрее, удобнее и автоматически.

Но бывают и вопиющие случаи. Не буду называть конкретный орган власти/госорганизацию, но у них на веб-сайт предусмотрена подписка на рассылки СМИ. Подписка реализована встроенными средствами CMS и, барабанная дробь, открытые интерфейсы этой CMS отдают данные о всех подписчиках. К счастью, их там не так много, чуть более 200 человек и данные там хоть и персональные, но не самые чувствительные, только email+ФИО+факт подписки, но картина показательная о том как организована работа с данными в госорганах.

В данном случае даже не знаю что лучше, написать им чтобы исправили, или забить на них и пусть сами разбираются с последствиями (там правда, ничего серьёзного нет, обычный контентный сайт).

Таких случаев много, много случаев публикации чувствительных данных, просто доступа к данным и тд. Госзаказчики чаще всего просто не знают на каких инструментах создана их инфраструктура и поэтому так много недокументированных API у госсайтов и государственных информационных систем. Это вопрос не только культуры работы с данными, но и обычной технологической культуры и полнейшее отсутствие централизованного аудита и мониторинга государственного технологического сектора.

#tech #government #governmentit #privacy #leaks
👍1🤮1