Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Физкультура привет! Давайте усложним задачу #datalearn и до конца курса справимся с этим челенджем. Мне рассказал про него канадский морской котик (у нас тут военно морская база на острове) и половину моих знакомых в navy. Все же любят и знают Moby. В его песни Flower мало слов, и ключевые Up/Down. Задача отжиматься и стоять в планке. Это не просто. А вот пример из US Army. В общем до конца песни нужно не свалиться на пол😓
Если вы пропустили вебинар по Git, то он останется в записи. У вас будет отличная возможность потренироваться на примере Datalearn репозитория. Денис Волк делает отличное демо, что можно сделать, и зачем это нужно.
Если будет искать #datalearn на гугле или яндексе, не попадитесь в сети PPCшников Skillbox и других продавцов успеха и светлого будущего!
Свежий пост, где авторы рассказывают про концепт HeadlessBI
Это одно из самых лучших место работы! Если я был бы в Москве, то мечтал бы работать в Яндекс🥰
Forwarded from Reveal the Data
У меня есть две огненные вакансии про BI и Табло в Яндекс.

📈 BI-аналитик в Яндекс Go
Это новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики приложений Яндекс Go. Необходимо разрабатывать стратегию развития отчётности, собирать данные и делать классные отчёты. Больше всего задач именно про дашборды, но придется готовить и данные. Вы не будете делать все-все дашборды для подразделения, но будете внутренним центром экспертизы по визуализации и Табло внутри команды продуктовой аналитики. Я же буду помогать вам советами и менторством.

Позиция уровня мидл/джун. Нужны классные навыки создания отчётов, сильный SQL, питон как преимущество.

Руководитель — Андрей Кармацкий, которого я считаю нереально крутым специалистом по визуализации и сложным аналитическим инструментам.
Описание вакансии на сайте


📊 Эксперт по визуализации в Маркет
Это позиция уровня тим-лида или мидла, готового к росту. В Маркете есть большая установка Табло и необходимо создать центр компетенций по визуализации. По сути, такая же позиция как у меня в Такси — нужно управлять BI-системой как продуктом. При этом на первом этапе нужно сделать примеры классных отчётов руками, провести обучение, наладить процессы организации контента на сервере, создать задачи на развитие инфраструктуры.

Здесь понадобятся как сильные навыки управления проектами и постановки целей, так и отличные знания визуализации и Табло. Моя команда на первом этапе поможет с примерами того, как это построено у нас.

Руководитель — Максим Левко, отвечающий за развитие DWH и инфраструктуры аналитики в Маркете.
Описание вакансии на сайте


Обе позиции в Москве, но с крутым кандидатом готовы обсудить и другие города. Зарплата обсуждается после интервью. В Яндексе классный соц. пакет, приятные коллеги, премии, опционы и просто интересно.

Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
#вакансия
Мне поручили разобраться с новой фичей Power BI - Deployment Pipelines. Разобрался, теперь могу вам рассказать.

В Power BI Service есть новое меню - Deployment Pipelines. Идея позаимствована из Azure Devopes, там тоже есть Pipeline. Эта фича очень сырая. Она позволяет использовать 3 среды (3 Workspace, все должны быть Premium) - Dev, Test и Prod.

Есть 2 сценария:
1) Наш существующий Workspace мы можем клонировать “назад” в Test и Dev. (При этом среда Test и Dev создадутся для нас).
2) Мы можем создать среду Dev, и с нее начать “deployment” на Test и Prod.

То есть, теперь есть возможность разделить среду разработки, тестирования и боевую. И дальше мы можем promote из одной среду в другую. Power BI будет сравнивать объекты (например отчеты, модели) и говорить нам, если расхождения.

Для каждого workspace мы можем дать права и роли. И наконец, мы можешь иметь разные подключения к базе данных, среда Dev будет подключена к базе данных на dev, а Prod и Test мы подключим к базе данных Prod. Я использовал SQL Server on-premise, и поэтому у нас есть gateway. Для того, чтобы изменить параметры подключения к SQL Server, в Power BI Desktop я заменил Host/database в строке подключения на параметры, которые можно заменить в deployment pipelines.

В целом идея хорошая, но очень сырая. Если отчетов 20-30, то еще нормально, а вот если их несколько сотен, я вообще не представляю, как можно справиться. Так же совершенно непонятно, как сравнивать объекты, но разные и разные, а чем разные не говорит. Версионность объектов тоже не поддерживает.

Но посыл хороший. В других BI я такого не встречал. Думаю доделают, докрутят и будет все чики-пики))) Для меня 2 главных преимущества:
1) BI команда, будет разделять dev и prod базы данных, и это будет обязательным упражнением, больше не будет shortcuts.
2) В боевой workspace у нас не будет мусора, а только актуальные отчеты.

PS вопрос по Power BI, как я могу получить статистику использования отчетов? Сколько просмотров и тп?
Сегодня попался интересный материал про генерацию уникальных значений - UUID (англ. universally unique identifier «универсальный уникальный идентификатор»). На википедии, даже есть статья.

UUID представляет собой 16-байтный (128-битный) номер. В каноническом представлении UUID изображают в виде числа в шестнадцатеричной системе счисления, разделённого дефисами на пять групп в формате 8-4-4-4-12. Такое представление занимает 36 символов:
- 123e4567-e89b-12d3-a456-426655440000

В моек контексте, использовалась функция в Python, при экспорте данных из Synapse хранилище через Databricks и было необходимо обеспечить уникальность CustomerKey. Можно еще зашифровать так данные.

Пример функции:

import uuid
from pyspark.sql.types import StringType
from pyspark.sql.functions import udf
uuidUdf = udf(lambda : str(uuid.uuid4()), StringType())
customerUpdatedDF = customerDF.withColumn("CustomerAlternateKey", uuidUdf())
display(customerUpdatedDF)
Евгений Кудашев, который делал вебинар про databricks, перешёл в Exasol в UK. Скоро они проведут user group для русско-язычной аудитории. И в будущем он планирует провести вебинар про Exasol для нас.
Update по #datalearn:
1. Мне осталось 2 видео для модуля 4:
- 4.7 Fancy ETL для on-premise, в котором я хочу рассказать популярные решения на рынке (очень кратко) - Airflow, NiFi, dbt, Luigi, Dagster + попоулярную на отечественном рынке аналитическую БД Clickhouse. Так как у меня опыт с этим инструментами из разряда МНТ (метод научного тыка), то постараюсь импровизировать, впрочем как обычно. Но с удовольствием проведем вебинар по любому из этих инструментов.

- 4.8 Обзор вакансии ETL разработчик. Я хочу еще раз пройти про разницу (которая иногда отсутствует) между вакансиями ETL разработчик. Потом посмотрим требования, примеры вакансий на hh и за границей. Для опытных коллег, я хочу заметить, цель DataLearn дать необходимый минимум знаний для позиции ETL разработчик или для дополнительные знания для позиций BI разработчик или аналитик. Есть еще много вакансий, где используются классические ETL инструменты, реляционных базы данных и SQL. И чтобы начать шарашить pipeline на питоне, нужно понятно как все работает на более простом уровне, и потом уже можно усложнять. Ну это мое мнение. Как обычно welcome послушать опытных инженеров данных, особенно интересно, с чего они начинали.

Так же для модуля 4, Павел Новичков @eXtr1Mo запишет 3 видео (2 лабораторные работы по работе с Pentaho DI, работа с базой данных и использования техник dimensional modelling и обзор итогового проекта модуля 4)

2. Роман @rspon плотно занимается запуском еще 2х курсов для datalearn, которые крайне полезны для начинающих специалистов и они должны закрыть оставшиеся пробелы в подготовке к поиску первой работы в дата мире. Инструкторы уже себя очень хорошо зарекомендовали в сообществе datalearn. Так же на подходе много крайне интересных вебинаров и спикеров.

3. 5й модуль будет про Cloud Computing (облачные вычисления). Я постараюсь собрать информацию по курсам Azure, AWS, примеры лабораторных работ и сделаю его независимым от прошлых 4х модулей. Он поможет нам сделать переход из on-premise решения по аналитики к Cloud. Yandex и Mail вкладывают огромные ресурсы в развития отечественного облака, так что через какое-то время мы увидим большой спрос на таких специалистов. Даже сейчас есть спрос на AWS или GCP специалистов по аналитике на том же hh. И после модуля 5 мы уже перейдем к моей любимой теме - аналитическое хранилище в облаке, spark, озеро данных, Delta Lake и рассмотрим много облачных инструментов AWS и Azure, после чего вы сможете понять всем мои презентации и проекты, которые я делал в облаке.
👋 Друзья приветствую всех!

Приготовили для вас интересное событие, я бы даже сказал необычное...

👉 Завтра вебинар (четверг 28.01.2020) в 20:00 (мск).

👉 Тема вебинара: Развитие аналитического мышления.
👉Автор - аноним.
Опережая ваши мысли, скажу, что это не маркетинговый трюк с целью вас заманить, автор предпочел скрыть свои контакты и сказал, чтобы вы лучше вникли в инфу, которую он расскажет, а про него забыли.

👉 О чем будет вебинар:
Развитие аналитического мышления: если мы посмотрим на мозг как на компьютер (вычислительное устройство), то открываются интересные следствия и практические применения - растим переборную мощность, ставим правильный софт и лучшие стандартные библиотеки.
Речь пойдет про то, что было бы неплохо, чтобы аналитик умел думать, так как для аналитика - самое важное мозги.

Лично по мне тема очень интересная и нужная и необходимая...

👉 Что нужно сделать:
👉 Перейти по ссылке и поставить колокольчик, чтобы в четверг не пропустить
👉 Отложить все дела на понедельник
👉В четверг в 20:00 быть на вебинаре

Канал спикера - @antxt
Всех обнял, до встречи в эфире 🥳
🔔 И ПОДПИШИТЕСЬ НА НАШ ЮТУБ

https://youtu.be/7qVJO0-XdL4
Свежий пост, в нем сразу про DataOps, dbt, Snowflake и SCD.