Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если кто в Ванкувере в эти дни - Велком! Осталось разобраться как работает Azure, и подготовиться к экзамену DP-200 Data Platform Engineer ну и все материалы подготовить. Если у кого чего есть, поделитесь. Я нашел интересный курс на Linux Academy - Azure D200 Certification Prep.
Команды curl вам пригодиться! Если вы работаете с данными и не знаете, что это такое, то в этом посте подробно описано с примерами и упражнениями. https://jvns.ca/blog/2019/08/27/curl-exercises/
Слышали о CAP теореме? В CAP говорится, что в распределенной системе возможно выбрать только 2 из 3-х свойств:

C (consistency) — согласованность. Каждое чтение даст вам самую последнюю запись.
A (availability) — доступность. Каждый узел (не упавший) всегда успешно выполняет запросы (на чтение и запись).
P (partition tolerance) — устойчивость к распределению. Даже если между узлами нет связи, они продолжают работать независимо друг от друга.

Обычно, когда мы собираемся строить решение Big Data, то вам стоит подумать, какие 2 требования наиболее важны для проекта.
Мы слышали много раз про Data Lake, но всегда был вопрос как же не превратить это все в болото данных. Успех был в правильной организации метаданных. Теперь Data Lake эволюционировали в Delta Lake, то есть действительно стали на шаг ближе к традиционным хранилищам данных. Более подробно в статье от databricks.
А вы бы смогли объяснить бабушке, что такое SQL и NoSQL? Посмотрите как это делается в этой статье.

Что касается меня, то за весь свой опыт я стороной обходил NoSQL. Можно решить аналитическую задачу без NoSQL. Да и вообще каждый проект имеет множество решений и зависят они от экспертизы в команде. Если это программисты, то будет java/python, AWS lambda, glue (например), если это BI, то будет много custom SQL (везде где только можно), ну и так далее. Достаточно знать один способ очень хорошо и понимать конечную цель, а цель обычно одна, бизнесу денег заработать.
Данные помогает делать бизнес (деньги) эффективней, но какой ценой? Все знают про Amazon Prime - бесплатная доставка за 2 дня, есть и другие опции как Prime Now, Prime Air и другие. Мы можем использовать данные, чтобы рассчитать модель доставки, и на компьютере все будет сходиться. Конечно все факты сложно учесть. Wallmart, например, пытается сделать доставку за 1 день, вместо 2х. В этой статье описаны случаи, когда из-за жесткого графика доставки страдают люди. По сути это обратная сторона монеты эффективной бизнес модели основанной на данных.
Если уж так случилось, что вы бросились изучать Machine Learning, то шаг номер один это математика, а если сразу математика и питон, то это замечательно, нашел классный курс для вас (бесплатный)! Платный будет только если я сделаю😝 А вот от него лабы, можете посмотреть.
Хорошая идея - нам не нужно ещё больше данных, нам нужны хорошие вопросы. Кто сможет задать хороший вопрос? Обычно тот, кто разбирается в бизнес процессах. Поэтому технарям сложно продавать идеи по внедрению ПО или разных приложений для аналитики, если они не очень хорошо разбираются как работает бизнес.
Форбс подготовил отчёт по AI, в общем и так было понятно, что все им занимаются!

Кстати никто не делает супер прорывной AI продукт? Есть возможность поехать в Шанхай на Road Show и встретиться с потенциальными инвесторами, поездку оплатят, если продукт стоящий.
Интересно, когда у нас тоже будут анлитическую рекламу на билбордах размещать.
Про резюме