Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#datalearn именно за такими success stories я охочусь и мы все в сообществе data learn создаем их каждый день своим трудом и целеустремленностью. Мне нравиться доказывать, что обходными путями можно добиться куда больше, чем просто в лоб как все. Что не надо платить кучу денег за посредственные курсы, когда все бесплатно. И главное, что когда мы помогаем кому-то, то этот человек будет так же помогать другим, своим пример мы можем немножко менять судьбы людей, это дает сил🚀
Интересно как повлияет уход Безоса с поста CEO на компанию и на стоимость акций Амазон, которые выросли в 5 раз за 5 лет.

Вовремя я ушел, без Безоса Амазон, не Амазон для меня.
Отличный message про сертификацию и доп курсы. Если нет сертификата это не так уж и плохо, на то могут быть причины. Но если есть, то это показывает ваш интерес к теме изучения предмета. Я всегда на собеседования в Амазон спрашивал про онлайн курсы типа Coursera, edx. Мне не важны были сертификации, но сам процесс изучения предмета говорит о многом.

Возвращаясь к нашей реальности, если у нас уже все ок с работой и опытом и мы не в консалтинге, где нужен прув экзамена, то и фиг с ним. А вот джунам, которые выдают себя за мидл😜, сертификат добавит веса, будет легче придерживаться своей красивой истории про большой опыт.
Порция постов для оголодавших гиков и прочих причастных к Big Data, ML и Python разработке:
Speaking of Spark Mllib
Modern Big Data architectures
Testing and validation in ML

Если вам интересно то и то, то вы можете подписаться на канал

PS автор поста закинул денежку vsevsevmeste.ru🤗
Вот и подошла к концу самая эпичная битва зимы!

Финал чемпионата для дата-сайентистов Alfa Battle 2.0.
Присоединяйтесь на утренний кофе с победителями и всеми причастными к громкому событию в it-индустрии 💥

Мы собрали для вас содержательный и яркий видеоподкаст:
- Победители поведали секреты эффективного подхода к решению задач чемпионата
- Организаторы поделились инсайтами “Как создавать задачи со звездочками”
- Жюри выбрало лучшие открытые решения
- Раскрыли карты “Как попасть на стажировку в компании Альфа-Групп”

📍Ссылка на трансляцию - https://www.youtube.com/watch?v=A7ha6mRUnhc

Заваривайте свой любимый напиток и готовьтесь погрузиться в самое технологичное утро февраля ☕️

PS тоже поддержали vsevsevmeste.ru😋
Хорошо нарисовали, что во что можно конвертировать в power query
Из историй про Power BI. Опять же, может кто подскажет. Задача была простая - использовать Power BI API, чтобы выгружать PDF и обновлять дашборды. Результат сохранять в Shared Folder. Этим больше занимался мой коллега.

Тема интеграции ETL и BI моя любимая! Так как нельзя доверять расписанию BI, так как оно сработает независимо от того, ETL готов или нет. Всегда одни и те же проблема. В 9 утра отчеты уже обновились, все ковыряются в данных и к обеду находят, что данные кривые - оказывается ETL упал ночью😵 Я настраивал так для Microstrategy и SAP BusinessObjects. И даже в tableau делал через Pentaho.

В Tableau я всегда использовал tabcmd (клиент для CLI). Мы можешь его установить на машину с ETL и дергать Tableau Server, как только ETL готов, если что-то сломалось, просто получим уведомление по email и в messenger. Есть еще библиотека для Python, делает тоже самое. В общем очень элегантно и работает безотказно. Можно еще добавить для Windows Febooti CLI email клиент, он будет отправлять отчеты, а можно и в AWS S3 складывать или AWS SES, чтобы отправлял приложение. Много сценариев. Мой пример для Matillion+Redshift;

А вот если гуглить похожий сценарий по Power BI, получается не так все просто. На словах просто, на деле нет. У нас это работает через Power BI Embedded. Там цены в месяц за среднюю машину под 3к$. К ней можно через API подключиться и она может все сделать, но embedded дорогой, потому что он для приложений, где может быть много пользователей, например личный кабинет. То есть это как из пушки по воробьям. С помощью Azure Data Factory мы запускаем весь pipeline, берем credentials из Azure Key Vault, через API Call аунтифицируемся, обновляем модель и скачиваем PDF. Там у товарища компонентов 10-15 pipeline. И куча сложностей с аунтификацией, поэтому он через Embedded зашел.

Может есть более простое решение?
Про Snowflake я писал не раз и даже общался с компаниями в Москве, кто хочет внедрять технологию. Приходили и рекрутеры, кто хочет специалистов по Snowflake. Так что наш следующий вебинар очень в тему. И он в тему модуля 6 #datalearn про современные аналитические DW. Я бы даже отнес его к Lakehouse.

https://youtu.be/XJa3gGWidg0

Из нашего slack:

Мальчишки, девчонки, а также их родители, про Snowflake историю в понедельник 8 февраля в 20:00 по мск послушать не хотите ли? Николай Голов подготовил отличный доклад. Ему есть чего рассказать и чему поучить!

Как всегда всем быть, те кто смотрит лекции будущие Олимпийские чемпионы в дата мире
😊
🔔 Что нужно сделать:
📌 Перейти по ссылке и поставить колокольчик, чтобы в понедельник не пропустить
📌 Отложить все дела на понедельник
📌 В понедельник в 20:00 быть на вебинаре

И ПОДПИШИТЕСЬ НА НАШ ЮТУБ
Хорошая книга, наверно в pdf появится скоро.
Из нашего slack
У Microsoft есть блог на medium - Data Science at Microsoft. Недавно они сравнивали framework для ML - Tensorflow и Pythorch.
Alibaba Cloud не отстает от своих собратьев в Северной Америке. Свежая статья про Data Lake.
Начало через 12 минут! Кстати Николай еще выступит на Vancouver Snowflake User Group (для Канадских сообществ) и расскажет более детально про использование Snowflake и его особенности, возможно начало марта/конец апреля https://youtu.be/XJa3gGWidg0