Инжиниринг Данных
21.4K subscribers
1.6K photos
38 videos
177 files
2.91K links
Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
С сентября в University of Victoria я буду преподавать Cloud Computing для студентов MBA и для курсов повышения квалификации. Скорей всего это будет AWS Educate + Azure. Заодно можно будет и на русском сделать этот курс для data learn
Data Learn начинался как супер ресурс для Data Engineering. Но программа получилась такая, что она пойдет даже тем, кто вообще без опыта (и мне даже так легче, последовательно). Реальный DE начнется в модуле 5-6. Но зато всем будет понятно, что это.

Если есть простые вещи, просто пропустите и мы дойдем до вещей по сложней. Зато, возможно ваши знакомые кто, слышал про ИТ и думает, что это только программирование, computer science и Machine Learning, смогут отрыть для себя новый мир, где нет высоких входных требований, и от простого идти к сложному.

В общем небольшой обзор Excel. Это такой опциональный вариант, для аудитории, кто совсем без опыта. Уверен много классных ресурсов по Excel (скиньте в комменты ссылки).

Один из учеников - Павел Новичков создал дашборд для примера и пишет пошаговую инструкцию, как можно сделать такой же.
Пообщался с командой, которая будет строить центральное Озеро Данных для Amazon Human Resources. Первое требование - coding для Data Engineer. То есть нужно знать SQL и Python. Про R вообще не слышно, как будто нишевой продукт.
Вот некоторые из реальных business cases применения Machine Learning, которые могут применяться к компаниях:
1. Ranking (ранжирование) - на сайте Amazon вы вводите ключевое слов и получаете список продуктов. Задача Amazon показать наиболее релевантный продукт клиенту.

2. Recommendation (рекомендации) - показать клиенту то, что ему нужно, желательно только один продукт.

3. Classification (Классификация) - создание категорий и подкатегорий продуктов.

4. Regression (Регрессия) - используется для численных значений, например прогноз продаж.

5. Clustering (Кластеризация) - группировка клиентов по схожим признакам, например для рассылки email с рекламой.

6. Anomaly Detection (Предсказание сбоев) - Можно использовать серверные логи в дата центре, чтобы предсказать следующий отказ.

7. Natural Language Understanding - Alexa трансформирует звук в текст, и извлекает семантику и выполняет конкретное действие.

8. Computer Vision (компьютерное зрение) - распознавание изображений, например по фотографии можно определить категорию продукта.

Напишите в коментах еще примеры
Парадо́кс дней рожде́ния. В группе, состоящей из 23 или более человек, вероятность совпадения дней рождения (число и месяц) хотя бы у двух людей превышает 50 %. Например, если в классе 23 ученика или более, то более вероятно то, что у какой-то пары одноклассников дни рождения придутся на один день, чем то, что у каждого будет свой неповторимый день рождения
Сегодня SpaceX успешно запустил ракету. Я же потратил 3 года на ГКНПЦ им Хруничева (который строит грузовые ракеты Протон), я занимался 2 года ракетомоделированием во Дворце Пионеров. К сожалению SpaceX или Blue Origin пока не имеют позиций на мою специфику. Я еще смотрел Amazon Solar и Amazon Wind, тоже нет. Очень интересно собирать и обрабатывать данные с нестандартных вещей.

Недавно я прослушал книгу про Илона Маска, и становиться понятно какая цена и какие титанические усилия стоят за запуском, поэтому это очень круто, что все получилось.

Нашел интересную картинку, которая сравнивает цену ракеты и ее надежность. SpaceX дешевле нашего Союза почти в 2 раза, и цена будет падать, а качество расти.
Добавил предысторию data learn в блог, чтобы была ссылка для курсов. Если кто не знаком с историями про подготовку и устройства на работу, то можно подчерпнуть идеи 😎 Это теже истории, что и в канале, просто теперь в одном месте с фиксированным URL))

Кстати, у нас теперь не просто там школа инжиниринга и аналитики, у нас теперь West Coast Data Engineering and Analytics🏄🏻‍♀️🏄🏻🏄🏻‍♂️🌲🐳🐋🛶⛵️🌊
Если вы хотите удивить ваших коллег или вам нужно сделать прототип для собеседования, вам нужно follow вот этого гуру Табло, у него все очень раписано и все можно повторить.