Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Классика! Это наверно самый популярный вопрос на собеседованиях, в чем разница архитектур при построении DW. Я всегда говорю: "Ну Кимбал это побыстрому, построим витрины (datamart) и для каждого департамента/процесса своя схема звездва (dimensional modelling). Но сложно масштабировать и потом приходиться все переделывать. А вот Инмон наоборот, там есть большая модель данных в 3й нормальной форме, и она легко масштабируется, но долго делается. А еще есть Data Vault моделирование..."

А вы чем пользуетесь? Я если честно ничем🙈
Modern Data Platform Architecture 04-20-2020.pptx
10.5 MB
Супер презентация от Matillion и DataMeaning (BI консалтинг), где картинки про legacy архитектуру и modern. Файл в power point, а это значит его можно растащить по своим презентациям.
А вот про современный дашборд для мобильных устройств. Никогда не внедрил в итоге аналитику на мобильных устройствам. Все время какие-то проблемы с устройствами, доступом, VPN или лицензиями. Звучало круто в 2012 - дашборд на телефоне, а реализация так себе. Кто-нибудь внедрил мобильные устройства?
Маленький пост на medium от нашего BI Intern. Она выделила 4 пункта:
1) Weekly Business Review - еженедельные встречи и обсуждения метрик и бизнеса, по сути смотрят на дашборды и смотрят на данные.🤠
2) Data Democratization - значит все решения принимаются на основе данных.🤗
3) Data Engineering - без него никуда!🧐
4) Applied statistics and data modeling - это так классно у нас называется data science. 🤖

И она еще цитату хорошую использовала, которую взяла у Безоса, а безос взял у Theodor Seuss Geisel: "В вашей голове находится мозг. В ботинках — ноги. Вы сами можете управлять, в каком направлении двигаться. Вы сами за себя. И вы знаете то, что вы знаете. И только ВЫ можете решать, куда вам идти."

Я пошутил, другая его цитата на само деле: "When something bad happens you have three choices. You can either let it define you, let it destroy you, or you can let it strengthen you."💪🦵
Про мой любимый Amazon Leadership Principle - Think Big:
"The common question that gets asked in business is, 'why?' That's a good question, but an equally valid question is, 'why not?'" - Jeff Bezos

"You can do the math 15 different ways, and every time the math tells you that you shouldn’t lower prices because you’re going to make less money. That’s undoubtedly true in the current quarter, in the current year. But it’s probably not true over a 10-year period, when the benefit is going to increase the frequency with which your customers shop with you, the fraction of their purchases they do with you as opposed to other places. Their overall satisfaction is going to go up." - Jeff Bezos

"All of the things that we put a lot of energy into have to be durable in time. Not every company follows this principle, and I believe it’s always a mistake. If you base your strategies on things that are transient, then you have to change your strategy too frequently." - Jeff Bezos

"At the heart of what we're doing is trying to think big on behalf of customers" - Adam Selipsky
Мне тут скинули ссылку, может кому интересно, 25 апреля https://ozonmasters.ru/
Ozon Masters - это программа обучения в области анализа данных.
Мы предлагаем два направления: теоретическое с уклоном в программирование Data Science и Data Engineering и сфокусированное на практических кейсах Business Intelligence.
Наша линейка курсов соответствует программам подготовки в области машинного обучения и бизнес-аналитики ведущих университетов мира.

Если кто уже проходил школу, напишите отзыв, как прошло? И вообще это бесплатно или нет?🙈
На последнем вебинара про дата инжиниринг я упомянул термин, который я открыл для себя недавно - "поле искажения реальности", я услышал его в книге про Стив Джобса.

Я упомянул это в контесте прохождения собеседования и устройства на работу. Раньше я говорил fake it till you make it. Что звучала немного грубовато - приврать (в лучшем случае). Теперь же мы можем использовать почти научный способ из сериала Звездный путь - поле искажения реальности. Это значит нам надо верить в то, что мы говорим. Тут подробней. Для datalearn.ru я думал про создания маленького интенсива по поиску работы и использованию выше упомянутых методов;)
А у меня был блог с 2013 по 2016 http://techbusinessintelligence.blogspot.com/ там много про SAP BusinessOnjects. Я его писал с одной целью, ссылочку вставить в резюме.
This media is not supported in your browser
VIEW IN TELEGRAM
Способна ли девушка создать искусственный интеллект в перерывах между фитнесом и СПА?

Легко. На гифке пример обучения той самой нейросети. Хочешь узнать, как разрабатывают подобные технологии из первых уст?

Программистка расскажет тебе:
- IT фишки, которых нет на платных курсах
- за что платят четыре средних зарплаты
- как отвечать на собеседовании в Google

Всего 20 минут чтения в день способы сделать из тебя к концу карантина настоящего специалиста.
Осенью прошлого года в московском офисе Яндекса прошла первая Школа бэкенд-разработки, на Хабр выложили ссылки с видео. https://habr.com/ru/company/yandex/blog/498856/#1
Я как то писал про dbt, это opensource продукт, которые позволяет создавать ELT (SQL трансформации) и оркестрировать ими. Они получили 13 млн инвестиций на прошлой недели, будут дальше разрабатывать и улучшать продукт. Если вы ищете простое и бесплатное решение для вашего проекта, dbt может подойти.
У AWS главный продукт для загрузки данных (ETL/ELT) - Glue. До него был просто data pipeline.

Glue это managed services (SaaS), это значит, что это решение хостится в AWS, и на не надо его устанавливать и настраивать. Для сравнения виртуальная машина с ОС это IaaS, а Redshift это PaaS.

Основной движок Glue это Spark. То есть мы может описывать трансформации, использую Spark (pySpark и SparkSQL).

Раньше это решение было только Batch (то есть выполняем загрузку по расписанию), а теперь появилась опция для стриминга.
Про работу overtime
Упражнение из книги Think Python, пытался понять эту теорему, и увидел страничку из рассказа.