Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Фотографии из HQ Tableau в Seattle, офисы пустуют, все на Табло конференции
Про зарплаты: How much do programmers make in FANG companies? Starting engineers start at about $200K total compensation, reaching $400-600K for senior engineers." Это про Software Development Engineer (SDE) позиции и это про силиконовоую долину. Но в целом, это относиться и к Data Engineer/ML Engineer. Как и везде, в Северной Америке, запрлата зависит от места работы и среднего уровня жизни. В Канаде зарплаты меньше, в Европе еще меньше. Идеальная ситуация, это получать зарплату в Северной Америке и жить где-нибудь в Южной Америке (часовой пояс совпадает).
ML God.pdf
1.6 MB
Интересная книга под названием Machine Learning God написана Machine Learning Angel.
Чувак очень правильно заметил, каждый должен занимать своим делом! Я бы добавил еще, что каждый дольже обязательно понимать всю картину целиком end-to-end хотя бы верхнеуровне. Но не нужно тратить время не на свои задачи. Я недавно потрали 2 недели времени на работу SDE, в итоге не сделал задачу. SDE смог бы это сделать за 2 дня. А я пытался понять основы и найти документацию. В итоге я передал задачу SDE.
Приходите 20го на митап, привезу стикеров https://www.meetup.com/Moscow-Business-Analysis-School/events/265849525/.
Технологии позволят эффективно распознавать лицо человека, и мы помогаем это делать каждый раз когда кого-то отмечает на фотографии, интересная статья про распознавание лица http://nymag.com/intelligencer/2019/11/the-future-of-facial-recognition-in-america.html
в коллекцию колажей
Обзор решений MLOps на Azure вместе с DataBricks (Spark) и Azure Data Factory https://www.linkedin.com/pulse/understanding-mlops-azure-databricks-raki-rahman/?trackingId=1cLnff%2Be6j7mVBeaSuhUMg%3D%3D
Всем привет! Вернулся домой из Москвы. На конференции My Performance Day в Mail.ru я рассказал про Amazon, получилось не плохо, 40 слайдов за 30 минут. Вот тут есть запись всей конференции https://mpd2019.ru/ Я посмотрел выступления SkyEng и Delivery Club, очень хорошо выступили. Так что будет время посмотрите мой доклады или доклад из друх компаний.
AWS опубликовала новость под заголовком "Как предоставить возможность работать с ML для каждого аналитика и разработчика", другими словами, все вендоры упрощают ML/Data Science, AI. Примерно так же как и алгоритмы сортировки в Computer Science, основы программирования. Но сейчас мы не задумываемся, какую сортировку выбрать, используем готовый пакет. Так же и с BI, мы просто перетягиваем нужные объекты и получаем график. Так же и с Hadoop, в облачной среде, пару кликов, и у нас Hadoop с SQL интерфейсом. Другой вопрос, что нужно понимать способы применения. На рынке ценятся специалисты, кто знает, какую модель для чего нужно применять, а "руки" всегда найдутся.
Попался классный курс по Data Engineering! Нет hardcore по всяким Hadoop, Kafka. По содержанию интересный, всего по чуть-чуть, подойдет всем кто работает с данными BI, ETL, DW. Если вы в начале пути, или делаете только BI, то стоит посмотреть!
Вот так вот выглядит самое современное хранилище данных. * На месте Matillion может быть любой инструмент, обычно ELT.
Один из читателей @Shtock 😝 заметил, что Matillion не очень хорошее решение, мягко говоря. Я согласен, у него есть свои достатки и преимущества. По сути можно любим решением решить задачу, если хорошо владеть им. Например, можно взять Excel и построить отличный дашборд, который будет решать бизнес задачи, хотя многи скажут, что excel плохой BI инструмент. Поэтому совершенно не важно какое решение мы используем, его главная задача приносить пользу бизнесу. Я, например, использовал Matillion на последних 2 проектах, потому что, я знаю как в нем сделать быстро то, чего хочет бизнес, хотя я мог бы использовать Apache Airflow или AWS Glue. Поэтому критерий "хороший/плохой" очень относительный.

Зато оказалось, что Александр, отлично разбирается в облачных хранилищах данных и поделился
1) Своей презентацией Cloud DW deep Dive. "в презентаци идёт попытка доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.

Также рассказано почему модели данных одного и того же хранилища должны быть разными между Redshift, Big Query и Snowflake и как эффективно использовать возможности данных СУБД.
"
2) Записью выступления на митапе Cloud DW and data models optimization.

Если есть чего интресного из по теме канала присылайте, расшарим!