Интересное чтение про данные, технологии и не только։
- Writing Well: A Data Engineer’s Advantage [1] просто прекрасный совет который я могу повторять всем дата инженерам и разработчикам. Уметь писать тексты, документировать свою работу - это не софт скилл, это профессиональный левел ап.
- Here’s why your efforts to extract value from data are going nowhere [2] о том что если у данные у вас плохие то как ни старайся хорошего результата не будет и о том что кроме профессий data science и data engineering есть ещё профессия которой пока нет нормального названия, но по сути это люди которые производят данные. Их труд менее всего выпячивается, ценится и так далее. Значимость тексту придаёт и то что его автор Cassie Kozyrkov, Chief Decision Scientist в Google. Она там же активно продвигает The Data Cards playbook, о котором далее.
- The Data Cards Playbook [3] по-русски звучит как "карточки данных". Карточки данных - это структурированные резюме существенных фактов о различных аспектах наборов данных ML, необходимых заинтересованным сторонам на протяжении всего жизненного цикла проекта для ответственной разработки ИИ. Это сложный и концептуальный, но важный и интересный путь описания документации наборам данных для ИИ.
- Tabular Announcement [4] анонс стартапа Tabular предлагающего хранилище данных в виде таблиц Apache Iceberg и с поддержкой многих языков/инструментов запросов причём хранят данные в хранилище AWS S3 к которому пользователь даёт доступ, так что обещают отсутствие vendor lock-in. Кстати, отсутствие vendor lock-in часто звучит как преимущество в последнее время. Правда оно не распространяется на итоговое хранилище которое почти всегда AWS, Azure, GCS или Snowflake.
Ссылки։
[1] https://medium.com/@luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0
[2] https://towardsdatascience.com/heres-why-your-efforts-extract-value-from-data-are-going-nowhere-8e4ffacbdbc0
[3] https://sites.research.google/datacardsplaybook/
[4] https://tabular.io/blog/announcing-tabular/
#datatools #data #readings #dataengineering
- Writing Well: A Data Engineer’s Advantage [1] просто прекрасный совет который я могу повторять всем дата инженерам и разработчикам. Уметь писать тексты, документировать свою работу - это не софт скилл, это профессиональный левел ап.
- Here’s why your efforts to extract value from data are going nowhere [2] о том что если у данные у вас плохие то как ни старайся хорошего результата не будет и о том что кроме профессий data science и data engineering есть ещё профессия которой пока нет нормального названия, но по сути это люди которые производят данные. Их труд менее всего выпячивается, ценится и так далее. Значимость тексту придаёт и то что его автор Cassie Kozyrkov, Chief Decision Scientist в Google. Она там же активно продвигает The Data Cards playbook, о котором далее.
- The Data Cards Playbook [3] по-русски звучит как "карточки данных". Карточки данных - это структурированные резюме существенных фактов о различных аспектах наборов данных ML, необходимых заинтересованным сторонам на протяжении всего жизненного цикла проекта для ответственной разработки ИИ. Это сложный и концептуальный, но важный и интересный путь описания документации наборам данных для ИИ.
- Tabular Announcement [4] анонс стартапа Tabular предлагающего хранилище данных в виде таблиц Apache Iceberg и с поддержкой многих языков/инструментов запросов причём хранят данные в хранилище AWS S3 к которому пользователь даёт доступ, так что обещают отсутствие vendor lock-in. Кстати, отсутствие vendor lock-in часто звучит как преимущество в последнее время. Правда оно не распространяется на итоговое хранилище которое почти всегда AWS, Azure, GCS или Snowflake.
Ссылки։
[1] https://medium.com/@luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0
[2] https://towardsdatascience.com/heres-why-your-efforts-extract-value-from-data-are-going-nowhere-8e4ffacbdbc0
[3] https://sites.research.google/datacardsplaybook/
[4] https://tabular.io/blog/announcing-tabular/
#datatools #data #readings #dataengineering
Medium
Writing Well: A Data Engineer’s Advantage
How to write clear and concise emails as a data engineer
В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]
- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.
- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.
Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8
#readings #data #dataengineering #uk #government
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]
- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.
- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.
Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8
#readings #data #dataengineering #uk #government
dataingovernment.blog.gov.uk
Using Data Science for Next-Gen Statistics
As the 21st century progresses, using data effectively has become a priority for many organisations, including the Office for National Statistics (ONS). The ONS's unique focus, however, goes beyond just utilising data effectively. The organisations ultimate…