Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Флагманский BI от AWS - Amazon QuickSigh опубликовал список фич за 2021 год.

Что же там нового?

Free-form layouts, new chart types, and much more for pixel-perfect, interactive dashboards

Сложилось впечатление, что продукт попытался угодить вообще всем и как-то не чувствуется видение решения.

Сразу вспоминается как в Амазоне каждая команда хотела внедрять Tableau для себя, но им надо для галочки написать сравнительный отчет, в котором четко указать, что QS хороший продукт, но вот еще немного сыровать, и лучше пока с Tableau. Я уверен, что внутренняя отчетность Amazon, в частности отчеты Weekly Business Review (аналог эксель таблиц), тоже оказывают влияние на продукт. Но это мое мнение.

Я вообще отношусь к BI решению как к обуви. Обувь не только должна быть удобная и практичная, но и эстетично красивая, поэтому я и люблю Tableau, в нем приятно работать=) В Looker тоже есть что-то особенное. А вот Power BI для меня как ботинки на мой выпускной, вроде классические туфли , но было стыдно еще раз их одевать😂

Давайте лучше посмотрим на достижения AWS в области BI за 2021 год:
- Добавили Dual Axis chart
- Можно теперь строить Sankey диаграмму
- Добавлять кастомные web компоненты
- Можно видео добавить или апы
- Улучшения по таблицам, почти Excel ячейки.
- Теперь можно делать A4 финансовую отчетность, так как появилась возможность использовать pivot table with custom styling for totals and sub-totals
- custom sorting
- custom tooltips
- wildcard search
- alerts
- можно PDF рассылки делать

И еще много чего. С одной стороны мы видим огромное количество фич, которые в большинстве являются базовыми для любого BI решения, а с другой стороны как-то не понятно в чем преимущество продукта, кроме как интеграции с другими AWS продуктами.

Интересно, кто-нибудь использует у себя QS?
Forwarded from Время Валеры
После работы в больших корпорациях и стартапах, я начал работать в чем-то среднем, уже не стартап, но еще не корпорация и как следcтвие, набросал следующее

A note about redundancy and efficiency in the Data Science department

In theoretical computer science, the CAP theorem states that any distributed data store can only provide two of the following three guarantees:
Consistency - Every read receives the most recent write or an error.
Availability - Every request gets a (non-error) response without the guarantee that it contains the most recent write.
Partition tolerance - The system continues to operate despite an arbitrary number of messages being dropped (or delayed) by the network between nodes.
When a network partition failure happens, it must be decided whether to cancel the operation and thus decrease the availability but ensure consistency or proceed with the operation and therefore provide availability but risk inconsistency.

I review the team structure as very close to this, but with different criteria: efficiency and redundancy. As computer science describes, redundancy means having extra or duplicate resources available to support the primary system. It is a backup or reserve system that can step in if the primary system fails. The reserve resources are redundant as they are not being used if everything is working correctly.

What does it mean to the team structure? From what I have seen, the company usually evolve from being efficient to becoming redundant. However, neither being too efficient nor too redundant is good.

Why being too efficient is not good?

If you are too efficient and cover many things with few people, you are at risk. If something happens to these people - the company is in trouble. If your team is 100% efficient and something critical happens - the team cannot cover it. Otherwise, the team is not 100% efficient. The team member does not have time to relax, and the team is relaxed. When people are relaxed, they become curious, explore, come up with new ideas, develop new skills, and be happy overall.

Why being too redundant is not good?

I found that the most challenging in life is to keep balance. Redundance is good - it provides reliability, security, room for improvement and a margin to outlast the crisis. However, too much redundancy creates sloppiness, bad team flow and repel top performers, as it deteriorates the overall vibe and feeling of doing a meaningful and impactful job.

Thus we need to keep the right balance between efficiency and redundancy.
Как ускорить расчет витрин с помощью материализаций

Несколько лет назад мы выбрали Snowflake как сервис для нашей дата-платформы. С ростом объемов данных до сотен миллионов строк (спойлер: а затем и до десятков миллиардов), мы задались вопросом: «Как тратить меньше времени на расчет запросов для ежедневной отчетности?». Идеальным вариантом было использование материализованных представлений, позволяющих обращаться к предварительно вычисленным результатам расчета витрин гораздо быстрее, чем к исходным данным.

Мы могли отдать управление нашим пайплайном таким популярным сегодня инструментам для трансформации данных, как, например, dbt, Matillion или Dataform. Однако, в начале 2020 года ни у одного из них не было возможности тонкой кастомизации под нужды Snowflake и ManyChat. К тому же, нам не хотелось платить за еще один сторонний инструмент. Так, мы приняли решение изобрести собственный велосипед для работы с материализацией данных. Именно об этом я сегодня и расскажу.

PS ManyChat как флагман строительства отечественного снежного хранилища, но для западной компании🤩
Всем привет!
Завтра (13 декабря) в 20:00 по мск вебинар по Greenplum
Спикер - Дмитрий Павлов.
Дмитрий админит сообщество Greenplum в России, а также является руководителем направления по развитию Data Platform в Yandex.Cloud.
Greenplum — аналитическая колоночная массивно-параллельная СУБД, предназначена для сложной аналитики по большим объёмам данных.
https://youtu.be/TupXHhdSrhg
Важное сообщение про vulnerability log4j. Многие системы для аналитики, больших данных и инжиниинга данных используют этот пакет:

Yesterday, December 9, 2021, a very serious vulnerability in the popular Java-based logging package Log4j was disclosed. This vulnerability allows an attacker to execute code on a remote server; a so-called Remote Code Execution (RCE). Because of the widespread use of Java and Log4j this is likely one of the most serious vulnerabilities on the Internet since both Heartbleed and ShellShock.

Больше информации: https://blog.cloudflare.com/inside-the-log4j2-vulnerability-cve-2021-44228/

Сейчас все облачные вендоры засуетились и пишут письма своим клиентам о том, что они знают проблему и делают патч. Если у вас Hadoop, Hive, Spark или еще чего использует этот пакет, отличная возможность проявить себя и прикрыть угрозу.
👍1
В этом уроке мы узнаем про термин Операционная Аналитика, и чем он отличается от традиционной аналитики. Заодно мы посмотрим на три самых популярных решения на рынке – Splunk, Azure Data Explorer и Kusto.

Если кратко, то такие системы и решения не являются главными для Инженера Данных или BI инженера. Для BI инженера операционная аналитика –это про еще один источник данных, с которым придется работать.

А для инженера данных, решения операционной аналитики могут быть полезны по многим причинам, мы можем собирать машинные данные (логи) о работе наших data pipelines, ETL, Big Data и тп, мы можем забирать данные из решений операционной аналитики и загружать в хранилище данных или озеро. А иногда, нас просят создать NoSQL решение данных на основе Elastic Stack. (меня никогда не просили, но вдруг!)

В этом видео вы узнаете:
- Что такое операционная аналитика и ее роль в решениях BI/DW/BigData
- Основы и историю Splunk- Про Azure Data Explorer и Kusto
- Про ElasticStack
- Основные кейсы использования операционной аналитики и примеры из опыта 

На лабораторной работе я покажу как получить Splunk, ADX и ElasticSearch.

Дополнительные материалы:
- [Вебинар Data Learn про Azure Data Explorer](https://youtu.be/CAdkL9vM6Do)
- [Elastic Search Tutorial]( https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started.html)
- [Splunk Tutorial]( https://docs.splunk.com/Documentation/Splunk/8.2.3/SearchTutorial/WelcometotheSearchTutorial)
- [Splunk уходит из России (совсем)](https://habr.com/ru/post/441004/)
- [Год без Splunk — как американская компания изменила рынок аналитики машинных данных в РФ и кого оставила после себя](https://habr.com/ru/post/484904/)
- [Splunk — общее описание платформы, базовые особенности установки и архитектуры]( https://habr.com/ru/company/tssolution/blog/323814/)
- [Quickstart: Create an Azure Data Explorer cluster and database](https://docs.microsoft.com/en-us/azure/data-explorer/create-cluster-database-portal)
- [1.Elastic stack: анализ security логов. Введение](https://habr.com/ru/company/tssolution/blog/480570/)
- [2. Elastic stack: анализ security логов. Logstash](https://habr.com/ru/company/tssolution/blog/481960/)
- [3. Elastic stack: анализ security логов. Дашборды](https://habr.com/ru/company/tssolution/blog/482054/)
Мы тут обсуждали новый продукт хранилищ данных, который уже наделал шуму - Firebolt. Можете посмотреть интересный доклад с конференции Coalesce - Firebolt Deep Dive - Next generation performance with dbt (Premier Sponsor)
Инжиниринг Данных pinned «Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных…»
Так как я в gaming, то стоит упомянуть про демо игры The Matrix Awakens, которая создана на Unreal Engine 5 совместно с Epic и The Coalition (как раз где я собирают телеметрию от игр на Unreal Engine). Если вы еще не видели ролик, то можете посмотреть насколько графика ушла вперед и насколько крут UE5.

https://news.xbox.com/en-us/2021/12/10/how-the-coalition-worked-with-epic-to-bring-the-matrix-awakens-to-life-on-xbox-series-xs/
Всем привет!
Завтра (15 декабря) в 21:00 по мск вебинар.
Тема: Введение в докер контейнер, как его создать и где использовать.
Спикер: Дмитрий Браженко.
Дима уже выступал у нас с вебинаром про Airflow и вы просили рассказать его про Docker, так что добро пожаловать:)
ссылка: https://youtu.be/JQCTjz_PzSM
SAP BusinessOjects - это классика BI, они выпустили прошлый патч спустя 7 лет. И вот выпустили еще один, возможно прошло год или два. А вы испульзуете SAP BO? Для меня это идеальный BI инструмент, я на нем вырос в буквальном и переносном смысле🥰


Если вы в банке, то с большой вероятностью у вас еще SAP BO и возможно даже версии 3=)

PS мне кажется мужчина на фото уже давно на пенсии🤣
Самая лучшая карьерная консультация https://youtu.be/OS8lt3zC9HM
Погнали работать в такой хороший день🙈
💡Узнайте ответы на часто задаваемые вопросы об аналитике в 5-минутном ролике о платформе Vertica — унифицированном аналитическом хранилище данных:
📍Почему привычные СУБД не годятся для анализа данных?
📍В чем заключается инновационность Vertica?
📍Какую пользу приносит объединение корпоративного хранилища данных и озера данных в одной системе?
📍Подойдет ли #Vertica небольшим предприятиям?
🎤 Рассказывают Евгений Степанов, руководитель направления Vertica в России и СНГ, и Александр Скоробогатов, архитектор решений Vertica в России и СНГ.
Смотрите видео: https://t.me/microfocusrussia/506
Всегда полезный контент, в том числе регулярные анонсы бесплатных вебинаров — на канале Micro Focus Russia & CIS Присоединяйтесь!

PS Пост поддержал приют для собак в Ногинске.