Инжиниринг Данных

4.21K viewsDmitry Anoshin, 05:40

Вулканы Камчатки в Tableau public https://public.tableau.com/profile/joti.gautam#!/vizhome/VolcanoesOfKamchatka/Dashboard1

3.49K viewsDmitry Anoshin, edited 23:02

Инжиниринг Данных

Статья, которая рассматривает подходы для data quality

There are two types of data quality issues in this world: those you can predict (known unknowns) and those you can’t (unknown unknowns). Here’s how some of the best data teams are taking a more comprehensive approach to tackling both of them at scale.

Medium

The New Rules of Data Quality

Introducing a better way to manage data quality at scale with testing and observability.

3.89K viewsDmitry Anoshin, 04:05

Инжиниринг Данных

Спустя год, организуем 2ю сессию по Snowflake Vancouver User Group. Спасибо Николаю за его время! Так же у меня meetup по Calgary и Toronto, то есть вся аудитория (пока маленькая) в Канаде по Snowflake нас должна знать и видеть))

Meetup

Not a Meetup member yet? Log in and find groups that host online or in person events and meet people in your local community who share your interests.

3.52K viewsDmitry Anoshin, 21:18

Инжиниринг Данных

https://www.entrepreneur.com/article/269816

Entrepreneur

'Unfair Advantage': What's Yours and How Do You Capitalize on It?

Are you leaving your strongest selling point in your back pocket?

3.09K viewsDmitry Anoshin, 03:45

Инжиниринг Данных

Недавно я писал про AI конференцию Microsoft Gaming Research. Она доступна на YouTube. Это лишь часть, должны быть и другие.

YouTube

AI and Gaming Research Summit 2021 - AI Agents (Day 1 Track 1.1)

AI and Gaming Research Summit 2021 - AI Agents (Day 1 Track 1 Part 1)

Chair: Tommy Thompson, AI and Games

Assisting and Coordinating with Humans
Anca Dragan, University of California, Berkeley

Coordinated Self-Play to Ad-Hoc Teamwork In Bleeding Edge
Sam…

3.12K viewsDmitry Anoshin, 15:06

Инжиниринг Данных

Forwarded from Smart Data (Denis Solovyov)

В прошлом посте я описал навыки, которые необходимы для входа в профессию в работе с данными человеку, который начал свой путь с 0. Также я предоставил ссылки на полезные ресурсы по их освоению.

Пост закончился тем, что после освоения базовых навыков, можно углубляться в одно из 5 направлений и развиваться в нём.

Поэтому, с этого поста я начну писать о навыках, которые нужны в этих направлениях и так же приложу ссылки на полезные курсы, статьи и видео. И начнём мы с направления Data Engineering - моего любимого направления, в котором я развиваюсь сам)

Ок, мы разобрались с экселькой, базами данных, SQL и научились на достаточном уровне пользоваться одним из BI-инструментов. Что учить дальше и в каком порядке, чтобы стать инженером данных? Вот мой список:

1. Принципы ETL/ELT, основные форматы файлов (csv, xlsx, xml, json), архитектура "клиент-сервер", web-технологии (REST API, webhook).
Речь здесь идёт больше о понимании технологий, а не конкретных инструментах. Но для понимания принципов ETL/ELT вы можете установить какой-нибудь ETL-инструмент себе на компьютер (например, Pentaho Data Integration) и попробовать построить относительно простые data-пайплайны.
Лично я сразу пробовал строить ETL-процесс с использованием Python и SQL, но когда я только начинал разбираться в data-инжиниринге, я не знал о ETL-инструментах с графическим интерфейсом:)
Но, если вы никогда не программировали, то такие инструменты будут хорошим вариантом для изучения главного процесса, за который отвечают инженеры данных.
Более того, в готовых ETL-инструментах уже есть встроенные средства для ETL-подсистем. С языком программирования внедрять и использовать ETL-подсистемы сложнее и дольше, поэтому и понять все аспекты ETL получится не так быстро, как с GUI.
В принципе, вы можете даже посмотреть вакансии ETL-разработчиков. Их не так много, как вакансий на data-инженеров, но они есть, и вы можете уже получить реальный опыт построения ETL-процессов в компании.

Полезные ресурсы для изучения:
Модуль про ETL от Data Learn
Что такое REST API
Что такое вебхуки

2. Python. После того, как вы поняли принципы ETL, изучили самые распространённые форматы файлов, с которыми работают инженеры данных и изучили базовые web-технологии, пора учиться строить data-пайплайны с использованием языков программирования.
Конечно, ETL-процессы можно строить и с использованием инструментов с графическим интерфейсом. Но если посмотреть на рынок труда, то в любой вакансии на data-инженера вы увидите как must have Python, Java или Scala. Поэтому, если хотите иметь больше возможностей и зарабатывать больше в этой сфере, нужно знать, как строить ETL с использованием кода.
Моё мнение - код придаёт больше гибкости решению и даёт больше возможностей в плане повышения качества (если вы умело программируете). По моему опыту также скажу, что, используя код, можно снизить стоимость поддержки всей аналитической инфраструктуры в несколько раз.
Также я часто в других каналах вижу вопросы по типу "Нужно учить только Python или Java/Scala?", "Почему учить Python, а не Java/Scala?" и т.д. Мой ответ: если у вас не было до этого опыта программирования, учите Python и только его. Точно не нужно распыляться на несколько языков. Python проще в освоении за счёт своей простоты синтаксиса и хорошей читабельности чужого кода. И он встречается как требование в большинстве вакансий. Да, Java и Scala быстрее в плане производительности самого кода (за счёт компиляции в машинный код), но не так много систем, где необходима наивысшая производительность кода. Да и с нынешними возможностями "железа" и облачными технологиями, имеет смысл больше уделять производительности труда инженеров, а не кода. Python как раз отлично подходит для этой цели.
Даже если вам не хватает возможностей Python, есть Spark (PySpark), который, кстати, спроектирован на Scala.
Вакансии с Java и Scala - это хороший вариант для опытных back-end разработчиков, у которых был опыт работы на этих языках и которые хотят переквалифицироваться в data-инженеров.
Процесс изучения Python рекомендую построить следующим образом:

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 4-1 Введение

В 4-ом модуле нашего курса вы узнаете про интеграцию и трансформацию данных - ETL и ELT. Это ключевой элемент в аналитическом решении, с помощью которого мы наполняем данными хранилище данных и автоматизируем загрузку и трансформацию данных. Мы рассмотрим…

2.99K viewsDmitry Anoshin, 23:19

Инжиниринг Данных

https://medium.com/pinterest-engineering/how-pinterest-fights-misinformation-hate-speech-and-self-harm-content-with-machine-learning-1806b73b40ef

Medium

How Pinterest fights misinformation, hate speech, and self-harm content with machine learning

Using the latest in machine learning to eliminate harmful content

2.86K viewsDmitry Anoshin, 04:07

Инжиниринг Данных

Не пропустите наш следующий вебинар 17 марта, на котором выступят эксперты Яндекс Cloud. Я специально попросил их выступить у нас с докладом, так как тема облачных вычислений и облачной аналитики очень важна для профессиональной карьеры современного специалиста по работе с данными и аналитическими решениями. Так же у нас начинается модуль 5, на котором будет больше про AWS и Azure, но у меня совершенно нет опыта с отечественным облаком. Поэтому будет интересно узнать, какие уже доступны решения и какие есть возможности. Возможно вы узнаете, что-то новое, и сможете попробовать облако бесплатно.

Кратко про вебинар:
🔔 Поговорим немного про облака, покажем архитектуру платформы данных Yandex.Cloud (ETL, Решение BigData, Решение Streaming) и рассмотрим реальные кейсы и сценарии решения задач аналитики.

🔔 Покажем демонстрацию инструмента для визуализации Yandex DataLens и обсудим возможности сервиса машинного обучения Yandex DataSphere.

Информация о спикерах:
⚠️ Дмитрий Павлов
С 2009 года тесно работает с масштабируемыми кластерными системами, начиная с высокопроизводительных GPU-ориентированных кластеров и заканчивая распределёнными аналитическими СУБД. С 2013 по 2017 руководил отделом эксплуатации Хранилища Данных банка Тинькофф. С 2017 по 2020 развивал сервисы хранения и обработки больших данных для крупных государственных заказчиков. С 2020 использует весь свой опыт в постройке лучшей платформы данных на базе Yandex.Cloud.

⚠️ Павел Дубинин
Начинал карьеру консультантом по внедрению BI, еще в те времена, когда самыми популярными решениями на рынке были Oracle и IBM, a "Tableau" и "Qlikview" в России еще даже не знали как правильно произносить. Затем проработал 6 лет в одном из этих вендоров и прочувствовал всю ценность и боль корпоративного BI. Сейчас занимается развитием нового облачного инструмента визуализации данных от Яндекс.

⚠️ Алена Дробышевская
Руководитель направления по развитию сервисов машинного обучения.
Помогает команде машинного обучения создавать сервис для разработки и эксплуатации ML-решений в облаках. До Yandex.Cloud возглавляла направление Smart Technologies в компании KPMG, занималась продвижением продуктов направления Data & AI в Microsoft и Oracle.

https://youtu.be/_PhGm2PrQmY

YouTube

ПЛАТФОРМА ДАННЫХ YANDEX.CLOUD ДЛЯ ЗАДАЧ АНАЛИТИКИ: ТЕХНОЛОГИИ, КЕЙСЫ И УНИКАЛЬНЫЕ ВОЗМОЖНОСТИ

🔗 https://datalens.yandex/dmce87bo5nfm7

Промокод:
🔗https://forms.yandex.ru/surveys/10028035.490e81628fdca7d1c846f4d5d4fc7f1305d8a69c/

🔔 Поговорим немного про облака, покажем архитектуру платформы данных Yandex.Cloud (ETL, Решение BigData, Решение Streaming)…

3.89K viewsDmitry Anoshin, 05:01

Инжиниринг Данных

Наше карьерный эксперт Анастасия Дробышева опубликовала следующий урок (3й) своего курса Job-Hunting 101

Исследование рынка труда и проверка гипотез.

Что обсуждаем в этом видео:

- что такое гипотеза в поиске работы;
- 3 способа проверки гипотез;
- сколько времени тратить на проверку.

https://youtu.be/V_FVvJr-5MU

YouTube

DATALEARN | JOB HUNTING - 101 | АНАСТАСИЯ ДРОБЫШЕВА | УРОК 1-3 | ИССЛЕДОВАНИЕ РЫНКА ТРУДА

Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-3. Стратегия поиска работы. Исследование рынка труда и проверка гипотез.

Что обсуждаем в этом видео:

- что такое гипотеза в поиске работы;
- 3 способа проверки гипотез;…

2.75K viewsDmitry Anoshin, 21:46

Инжиниринг Данных

И если вы еще не записались на курс по ML&DS101, то вы много пропускаете! Анастасия Риццо добавила 1й урок 2го модуля

-> Regression: Theory and Algorithms
В этом уроке мы:
Пройдем немного теории Регрессии и некоторые её алгоритмы:
📌 Build and Train ML model
📌 Linear Regression
📌 Ridge
📌 Lasso
📌 Elastic Net
📌 Support Vector Regression
📌 Decision Tree
📌 Random Forest

https://youtu.be/q7dQR_cd8pk

YouTube

ML-101 | Module 02 | Lesson 01| Regression: Theory and Algorithms | Anastasia Rizzo

Курс Getting Started with Machine Learning and Data Science (ML-101).

В этом уроке мы:
Пройдем немного теории Регрессии и некоторые её алгоритмы:
📌 Build and Train ML model
📌 Linear Regression
📌 Ridge
📌 Lasso
📌 Elastic Net
📌 Support Vector…

2.73K viewsDmitry Anoshin, 21:48

Инжиниринг Данных

Собрано огромное количество ресурсов по Аналитике и ML https://github.com/eugeneyan/applied-ml

GitHub

GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.

📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production. - eugeneyan/applied-ml

3.15K viewsDmitry Anoshin, 04:24

Инжиниринг Данных

The Big Book of Machine Learning Use Case.pdf

20.2 MB

The Big Book of
Machine Learning
Use Cases от Databricks.

3.97K viewsDmitry Anoshin, 04:27

Инжиниринг Данных

https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

2.76K viewsDmitry Anoshin, 04:39

Инжиниринг Данных

А это если всерьез решите AI изучать)))

2.84K viewsDmitry Anoshin, 04:49

Инжиниринг Данных

Forwarded from Вастрик.Пынь

🔥 Квантовый Компьютер. Как устроен? Как программировать? Уже?

Сегодня будущее заглянет в наш в дом так глубоко, что в конце поста мы даже напишем свой первый квантовый Hello World и запустим его на настоящем квантовом компьютере.

Кажется, пост получился очень логически красивым и объясняет тему чуть лучше обычных статей в интернете (научрук поста подтверждает!)

Порепостите, пожалуйста. Вдруг кому-то такое всё еще интереснее комнат в клабхаусе :D

https://vas3k.ru/blog/quantum_computing/

2.65K viewsDmitry Anoshin, 15:29

Инжиниринг Данных

Forwarded from Mikhail Kumachev

DE or DIE #6

Друзья, мы рады анонсировать митап #6 нашего сообщества DE or DIE!

Дата и время: 25 марта (четверг) 18:00
Формат: Онлайн (трансляция на YouTube)

Регистрация по ссылке: https://deordie.timepad.ru/event/1584420/

Наши спикеры:
1. Иван Трусов из Databricks с докладом: Delta Lake — table format for large scale storage and analytics
2. Паша Финкельштейн из JetBrains с докладом: Kotlin for Apache Spark: WHY?

(*): Несмотря на англоязычные названия доклады будут на русском языке.

Ждем вас в следующий четверг. Ссылку на трансляцию опубликуем за час до мероприятия.

2.71K viewsDmitry Anoshin, 16:04

Инжиниринг Данных

Хороший пост про ценность "бесплатных стажировок" в хорошей компании.

2.83K viewsDmitry Anoshin, 18:32

Инжиниринг Данных

Не забудьте про наше вебинар в 7 вечера по Москве про Яндекс Облако. https://youtu.be/_PhGm2PrQmY

YouTube

ПЛАТФОРМА ДАННЫХ YANDEX.CLOUD ДЛЯ ЗАДАЧ АНАЛИТИКИ: ТЕХНОЛОГИИ, КЕЙСЫ И УНИКАЛЬНЫЕ ВОЗМОЖНОСТИ

2.93K viewsDmitry Anoshin, 21:03

Инжиниринг Данных

Яндекс продолжает набор на оплачиваемую летнюю стажировку⚡️

Важно: отлично проявившие себя стажеры получат шанс перейти в штат!

Направления: фронтенд- и бэкенд-разработка, машинное обучение, аналитика, мобильная разработка и другие — ознакомиться с ними можно здесь.
Особый формат стажировки — Deep Dive в Яндекс.Маркете.

Сколько длится: от трех до 6 месяцев.

Где: в Москве, Санкт-Петербурге, Екатеринбурге, Нижнем Новгороде, Новосибирске, Сочи, Симферополе и Минске.
Если вы из другого города — мы оплатим вам дорогу и проживание в Москве 🙌

Что нужно уметь: мы ждём отличного знания базовых алгоритмов и уверенных навыков программирования на одном из языков.

Как проходит отбор: зависит от направления, но в большинстве случаев нужно будет выполнить тестовое задание, пройти два-три технических интервью, а затем выбрать команду.

Подавайте заявку до 31 мая: https://clck.ru/TgiBN

PS ребята поддержали #vsevsevmeste🤞

Young&&Yandex ― старт карьеры в Яндексе

Экосистема стажировок и образовательных проектов — можно попробовать себя в IT, прокачать навыки и начать работать в Яндексе

3.32K viewsDmitry Anoshin, 04:45

About

Blog

Apps

Platform