Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Выберите fake сертификаты Part 2
Anonymous Poll
36%
Pentaho DI
31%
SAP BO
36%
Teradata SQL
25%
Teradata Professional
Продолжаю про ценность сертификатов. У меня по ним примерно такая история:
- SnowPro Core - я даже не пытался, но у меня был купон на бесплатную сдачу. Это вводный экзамен, просто было жалко времени теорию повторять.
- AWS BigData - я прошел все тренинги и лабы, осталось только зубрить теорию бесполезную. Стало жалко времени.
- AWS Cloud Practitioner - я сдавал честно 2 раза, и какждый раз был сбой в программе онлайн экзаменов. 3й раз я просто забил.
- Pentaho DI - я набрал 73%, а нужно было минимум 75%. Пересдавать это уже дорого.

То есть эти 4 fake. Реально для себя я не ощущаю полезности их наличию. Тренинги к подготовке AWS, очень важны и полезны, а вот учить теорию наоборот. Они весят в LinkedIn и больше служат как приманка для рекрутеров. Это как ловить рыбу и вокруг насыпать приманку, чтобы ее привлечь🤫

DAMA CDMP я сдал без подготовки на конференции EDW. Причем там оплачиваете, только если успешно сдали)) Во время сдачи я очень очень быстро делал CNTR+F (search) в книги по подготовке CDMP. Вообще это сертификат какой-то древний, даже нет картинки в Linkedin.

2xTableau я сдал честно, так как нужно было стать партнером Tableau в British Columbia. К сожалению, каждые 2 года они expired. Но реально пользы в них никакой. Больше я знать не стал. Главные знания из практики.

2xSplunk я сдавал в Москве по той же причине, было требование партнерства. Тренинги были крутые, а вот сертификаты бесполезны. В 2016 году меня не взяли в Splunk в Toronto.

Я еще не указал сертификат по Microstrategy. Я его тоже получил честно, тоже бесполезный.

2xIBM тоже было требование партнерства в Москве. Полная профанация. Мне даже ответы дали из IBM😂

SAP BO сдал честно в центре SAP в Москве, было крутое ощущение. Но пользы не было.

2x Teradata сдавал честно, но готовился по dump ответов. Это было необходимо, так как работал в Терадата.

В общем, сертификаты могут быть нужны в следующих случаях:
1. У вас мало или вообще нет опыта, но вам надо показать обратное -> сдавайте сертификат
2. Вы работаете в консалтинге и вам необходим экзамен, так как это требование партнерства. Если все оплачивают и дают время на подготовку, то почему бы и нет.
3. Ваш работодатель оплачивает вам подготовку, экзамены и очень ценит сертификаты на годовой оценке, тогда конечно нужно получить парочку.

Я бы еще мог к себе добавить сертификатов по Azure и Databricks. Может быть добавлю потом. Никто, никогда не попросил меня прислать proof сертификата. Так что смело добавляйте 2-3 к себе по технологиям, которые вы хорошо знаете!
Forwarded from Pasha Finkelshteyn
Чатик, а вы знаете про конфу datalove, которая совсем скоро? https://datalove.konfy.care/
И вы только посомтрите какой там лайнап? Я не видел Холден уже больше года, например!
Я потратил 4 месяца на full time изучение Databricks на Azure. Вчера написал письмо пользователям, что вот все готово, переходим с HDInsight/SQL Server на Databricks. А сегодня оказалось, что больше мы не используем Databricks, и теперь Synapse Analytics. У которого тоже есть managed spark, delta lake, но все это еще местами сыровато. Все мои планы про крутые кейсы на databricks, про collaboration и продвижение продукта среди студий Microsoft улетучились. С завтрашнего дня начинаю ковырять Synapse. Чувствую себя примерно, как переходить с Tableau на Power BI, и вам обещают, что все будет так же и даже лучше🤪 Последние 4 месяца я в голове строил планы про архитектуру решения, возможные use cases, общался с другими командами и убеждал их в превосходстве Databricks над другими решениям, и многое другое, а теперь все это стало не актуальным, надо будет разобраться как это сделать на Synapse.

В любом случае опыт хороший получил по Databricks. Принципы Spark, pyspark и delta lake останутся неизменны. Но есть недостатки, например максимальная версия, которая есть у Synapse -> Spark 2.4.

Из хорошего, будет легче в datalearn засунуть Databricks и Synapse Analytics.
С виду полезная книга
Microsoft продолжает экспериментировать с дата центрами. В статье они используют в качестве охлаждения специальную жидкость. До этого они проводили эксперимент, в котором положили дата центр на дно океана в специальной капсуле. В статье будет ссылку на это.

Крупные tech компании обсуждают экологические проблемы и сокращение выброса CO2. Датацентры потребляют огромное количество энергии и один из главных расходов - охлаждение.
Сегодня на работе затронули важную тему, которую часто упускают из виду, и потом получается не очень комильфо.😵‍💫 Я кстати всегда на эти грабли наступаю. Это naming convention. То есть как вы будете называть ETL jobs, ресурсы в облаке, хосты баз данных, и другие компоненты инфраструктуры. У Azure есть хороший документ про это. Скиньте в коменты ещё полезные ссылки по этой теме.
Для оптимизации запросов через Apache Spark используется система индексации данных hyperspace. Вот описание от Synapse, но там есть ссылка на основной продукт. Используете? #spark