Ivan Begtin
8.07K subscribers
1.5K photos
3 videos
100 files
4.25K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Интересное чтение про данные, технологии и не только։

- Writing Well: A Data Engineer’s Advantage [1] просто прекрасный совет который я могу повторять всем дата инженерам и разработчикам. Уметь писать тексты, документировать свою работу - это не софт скилл, это профессиональный левел ап.

- Here’s why your efforts to extract value from data are going nowhere [2] о том что если у данные у вас плохие то как ни старайся хорошего результата не будет и о том что кроме профессий data science и data engineering есть ещё профессия которой пока нет нормального названия, но по сути это люди которые производят данные. Их труд менее всего выпячивается, ценится и так далее. Значимость тексту придаёт и то что его автор Cassie Kozyrkov, Chief Decision Scientist в Google. Она там же активно продвигает The Data Cards playbook, о котором далее.

- The Data Cards Playbook [3] по-русски звучит как "карточки данных". Карточки данных - это структурированные резюме существенных фактов о различных аспектах наборов данных ML, необходимых заинтересованным сторонам на протяжении всего жизненного цикла проекта для ответственной разработки ИИ. Это сложный и концептуальный, но важный и интересный путь описания документации наборам данных для ИИ.

- Tabular Announcement [4] анонс стартапа Tabular предлагающего хранилище данных в виде таблиц Apache Iceberg и с поддержкой многих языков/инструментов запросов причём хранят данные в хранилище AWS S3 к которому пользователь даёт доступ, так что обещают отсутствие vendor lock-in. Кстати, отсутствие vendor lock-in часто звучит как преимущество в последнее время. Правда оно не распространяется на итоговое хранилище которое почти всегда AWS, Azure, GCS или Snowflake.

Ссылки։
[1] https://medium.com/@luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0
[2] https://towardsdatascience.com/heres-why-your-efforts-extract-value-from-data-are-going-nowhere-8e4ffacbdbc0
[3] https://sites.research.google/datacardsplaybook/
[4] https://tabular.io/blog/announcing-tabular/

#datatools #data #readings #dataengineering
В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]

- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.

- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.

Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8

#readings #data #dataengineering #uk #government