Инжиниринг Данных
23.4K subscribers
1.91K photos
57 videos
190 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Еще один свежий BI вендор из Азии - Holistics, предлагает вашему вниманию ebook - The Analytics Stack Guidebook, где вы можете посмотреть про современные аналитические решения и многое другое. Например они рассказывают про Open Source ETL решения, концепты хранилища данных, разницу межлу ETL vs ELT, озера данных и тп. Классные у них в картинки, можно позаимствовать для #datalearn 😜
Даже есть про Кимбала и его dimensional modelling. В целом ничего нового, но все красиво собрано в одном месте.
👍1
Недавно я провел опрос про важность блога или других вещей, которые могу помочь вам в развитии карьеры. Реально получается, что 48% считают, что это очень полезно. Но я не уверен, что эти же 48% это делают.

Вам не обязательно быть крутым профи, чтобы вести блог. Например, я начал свой блог TechBI в 2013 и закончил в 2016, когда уже был в Амазоне. Я его начинал только с одной целью, писать туда все в подряд, чтобы у меня была ссылка в резюме. И так как я искал работу за границей, то и блог был на английском. Иногда я переводил русские статья на англ к себе в блог, иногда я фигачил документацию из внутренних порталов Teradata. Были моменты, когда я описывал решения проблем и учился чему-то новому. В целом как блог этот ресурс тянет на 3 с минусом, но как инструмент достижения цели на 4+. Кроме блога, я еще сделал slideshare, на который выкладывал все презентации только на английском языке (еще один актив). Тут я уже больше старался.

Поэтому очередной раз говорю, если серьезно настроены в развитии карьеры в своей области создайте ресурс. Блог проще всего. Можно использовать medium (там нет тролей как на habr или vc). Самое простое, что можно сделать, описывать решение заданий #datalearn, описывать проблемы на работе или может быть писать про ваш путь в мир данных.

Как ни крути, одного резюме с перечнем скилов недостаточно, нужны еще активы. Может быть хороший актив - развитие #datalearn, обучение студентов?;)

В декабре 2018 я писал про интересный lifehack, который я использовал, когда искал работы за границей, да и на hh тоже использовал это вместо cover letter.
👍3
У AWS есть сервис - Direct Connect. Это когда мы подключаем свой датацентр напрямую к дата центру AWS. Вот пример использования такого подключения для реального клиента (конечно в штатах). Они используют QuickSight и Redshift - все как обычно BI+DW. Но у них еще есть куча систем on-premise - SQL Server, Teradata, Presto и тп. И вот они решили подключить on-premise данные к Quicksight используя direct connect. Ну и наверно заливая заодно их в Redshift. Вот ссылка.
👍2🦄1
Так как я работал в Amazon Alexa, хотел рассказать про последнее устройство - AlexaShow 3rd generation. Где прослеживается развитие применения ML для повседневных устройств. Использует новый AZ1 Neural Edge processor (чип специально для ML).

Главное добавление - это возможность экрана вращаться на 360 градусов - motion. Причем она это делает не просто так, а пытается повернуться к вам, на звук. Когда вы разговариваете по Alexa (типа skype видеозвонок, она будет крутиться за вами). Другая интересная фича - security guard. Она может сканировать комнату и отправлять вам фотографию, если замечено движение в ваше отсутствие.

У меня дома есть все 3 поколения AlexaShow и мы можем с детьми созваниваться между комнатами или я могу домой звонить на камеру, когда нахожусь в отпуске. Конечно если нет wifi, то и ничего не будет. Кстати если у вас есть Alexa, скажите ей - "Alexa, fart sound". Мои дети угорают от этого. Кстати google устройство тоже понимает "google, fart sound". Как я понимаю устройства могут найти общий язык. А вот siri еще не дорос до такого уровня AI.
У нас супер новости, #datalearn превысил 2000 студентов, теперь надо на платную подписку mailchimp.
🐳1
На всякий случай хочу закрпепить информацию про канал и datalearn для новеньких подписчиков и стареньких, кто еще не знает деталей.
❤‍🔥1
Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных проектах, где драйвером являются данные. Видел и Big Data и Machine Learning, AI в действии в масштабе крупнейшей компании мира. После Амазона работал 5 лет в Microsoft Xbox и Microsoft Azure Data&AI. Активно принимал участие в развитии Microsoft продуктов для аналитики - Synapse, Fabric, Azure Databricks.

Теперь, я помогаю создавать инновационные аналитические решения, создавать дата команды и модернизировать устаревшие решения и как хобби обучаю инженеров и аналитиков через свой образовательный проект Surfalytics.com. Задача Surfalytics - ваша прокачка и трудоустройство на западном рынке, у нас закрытое сообщество в Discord, где мы ботаем DE и аналитику и прокачиваем скилы и добываем job offers.

Я написал несколько книг по аналитике и преподаю Облачные Вычисления (Cloud Computing) в Университете Виктории.

У меня большой опыт в развитии дата сообществ и выступлений на конференциях, meetup и user groups.

Все это помогает быть на пике технологий и следить куда движется индустрия аналитики.

В канале Инжиниринг Данных, я буду писать про современные аналитические решения и истории из жизни, связанные с развитием карьеры, много вредных советов и контента не по теме😜

Ну и конечно для всех желающих есть ресурс на русском DataLearn.ru который мы стартанули с Романом Пономаревым. Может сразу переходить в учебник , выбрать свой курс и учится! И также есть отдельный чат для студентов.

Идея datalearn простая, мы бесплатно учим профессиям для работы с данными. Начиная от основ аналитики - зачем нужны данные и аналитика и заканчиваю BigData. Курс полностью бесплатный. За 3 года я успел записать 7 модулей и потом переключился на Surfalytics.

PS Сейчас работаю над порталом Дата Инженеръ - главный 🇷🇺 портал про Инжиниринг Данных. Вы можете стать контрибъютером, если вам интересно напишите мне.
👍9951🔥29🐳9🍾42😁1💯1🍌1😭1🎄1
Инжиниринг Данных pinned «Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных…»
9-10 декабря будет интерсной ивент - Denodo Data Fest. Как обычно бесплатно практикуем английский и изучаем рынок современных решений и аналитики.

Кстати 2ое подписчиков канала серьезно взялись за Denodo и прошли уже обучение по продукту (Architecture и Developer) и планируют сдавать сертификацию, чтобы поддерживать и развивать Denodo в Канаде удаленно из России. Может быть потом они выступят с докладам и расскажут про свой опыт.

Есть такая же возможнось по Looker и Plotly;)
Пошаговая инструкция для Product Managers, как создавать ML продукты.

От себя добавлю. Польза ML уже доказана для бизнеса. В индустрии есть куча примеров для внедрения ML решений.

Например:
- ранжирование выдчи продуктов для маркетплейсов
- рекомендация товаров и услуг
- классификация продуктов
- бюджетирование и прогнозирования спроса/продаж/действия пользователя
- поиск аномалий
и многое другое.

Product Manager именно тот человек, кто является двигателем прогресса в продуктах и сервисах.
👍4
А вот информация от AWS
Отличный пример использования визуализации для введение в ML. Это очень известная ссылка, но вдруг вы не встречали.
Завтра в это же время будет супер ивент c data monsters. Будет 2 спикера:
- Irja Straus - расскажет на английском про Test Strategy in Data Driven World.

Затем я расскажу про 5 лет в Амазон (на русском)! Почти закончил презентацию, получилось интересно!

https://youtu.be/q5K-iUFg-kA
🔥2
Forwarded from data будни
Отличия ML и DS

Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.

почему специалистов по машинному обучению называют дата саентистами?

пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.

Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.

→ то есть не Data Scientist, а ML Engineer


- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.

Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.

⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.

Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.

Подкаст в iTunes и Overcast
Все привет, мы начинаем. Я наверно минут через 40 расскажу про несколько проектов и концерт Ленинграда в Сиэтле)) Наливайте комбучу и садитесь поудобней))