Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Data & IT Career
Работа на российскую компанию из-за рубежа: нюансы и риски
https://t.me/foranalysts/4882
https://vc.ru/hr/525349-rabota-na-rossiyskuyu-kompaniyu-iz-za-rubezha-nyuansy-i-riski
https://t.me/dataengineering_chat_ru/55993
😁8👍7😢1💩1
🔥37😁16👍31🤔1
Мы слышали про lake house подход много раз, где существует 3 основных решения - Delta Lake, Hudi, Iceberg.

Я работал 2 года с Delta Lake, так как использовал Databricks (Spark), именно они и contribute into delta lake.

А вот интересная статья про работу и использование Apache Iceberg https://medium.com/insiderengineering/apache-iceberg-reduced-our-amazon-s3-cost-by-90-997cde5ce931
🔥11👍7
🔥32👍17
Кстати в продолжения темы про продажу стоков. Очень не хотелось продавать в тот день, так как все росло.
Напомню, Microsoft стоил - 247US$, Amazon - 120US$. Но я решил продать и не ждать уже ничего, хотя здравый смысл говорил об обратном. И даже на след день все подорожало на 2$ после продажи. А еще через день все компании объявили о своих доходах за квартал, все недобрали и все упало, теперь Microsoft - 226US$, Amazon - 110US$. Все логично, либо продавайте как есть, либо ждите несколько лет.
🔥11😢6👍3
Накопилось несколько полезных ссылок по dbt:
Data Engineering with Snowpark Python and dbt - это, как я понимаю, новинка😁

Complexity: the new analytics frontier - dbt уже 6 лет +, обзор того, как это было и как сейчас

How we structure our dbt projects - классика, как нужно все организовывать в dbt проекте

dbt(Data Build Tool) Tutorial - tutorial по dbt. Я уже год с dbt работаю, уже могу и сам учить😊 но вы же знаете что это будет дорого и долго🙈

The Most Efficient Way to Organize Dbt Models - еще одна статья про то, как нужно делать правильно. А то они не знают - "Нормально делай, нормально будет"!😚

dbt Style Guide - ну а если вы на стиле, как я🕺🏻, то тут можно посмотреть стильные гайды.
👍23😁3🎉31
Forwarded from Nikita Baburov
😢31😁15🤔53👍2
Forwarded from nonamevc
Венчурный капиталист Томаш Тунгуз (Tomasz Tunguz) поделился прекрасным постом по итогам конференции Monte Carlo
про будущее дата-индсутрии на 2023 год.

Томаш как-то объявил, что в 2020 году мы вошли в декаду дату-стартапов и последовательно развивает этот тезис в своем блоге. За последние пару лет его работодатель, VC фонд, Redpoint Ventures проинвестировал в HEX, ClickHouse, Materialize, Monte Carlo, Omni. Большинство этих сделок лидидровал Томаш, так что прислушаться к его советам стоит.

Главные тезисы:

1. В 2021 году стартапы в области данных привлекли в общей сложности более $60 млрд, что составляет более 20% от всех венчурных долларов в мире.

2. Облачные хранилища данных (DWH) будут отвечать за 75% рабочих нагрузок (workloads) к 2024 году. За последние пять лет облачные DWH выросли с обработки 20% workloads до 50%. Оставшуюся часть составляют локальные базы данных. За это время объем отрасли вырос с $36 млрд до $80 млрд.

3. Workloads, связанные с данными, разделяются на три группы. In-memory бд, такие как DuckDB, будут доминировать в локальном анализе даже весьма массивных файлов. DWH сохранят классическое применение в BI и аналитике. Data lakes данных будут обслуживать таски, работающие с обработкой массивных данных, но которым не требуется высокая latency - и делать это за половину стоимости хранения.

4. Metrics layers объединит стек данных. Сегодня существует два разных направления в работе с данными – BI и машинное обучение. В первом случае мы используем ETL для перекачки данных в DWH, затем в BI или инструмент исследования данных. Отличие процессов машинного обучения том, что на выходе – обслуживание модели и обучение модели. Metrics layers станет единым местом определения метрик и характеристик, объединяя стек и потенциально перемещая обслуживание и обучение моделей в базу данных.

5. Большие языковые модели изменят роль инженеров по обработке данных. Здесь Томаш восхищается Copilot и верит, что подобные технологии, продвинут работу по проектированию данных на более высокий уровень абстракции.

6. WebAssembly (WASM) станет неотъемлемой частью приложений для работы с данными для конечных пользователей. WASM - это технология, которая ускоряет работу по браузера. Страницы загружаются быстрее, обработка данных происходит быстрее, а пользователи становятся счастливее.

7. Ноутбуки завоюют 20% пользователей Excel. Из 1 млрд. пользователей Excel в мире 20% станут пользователями, пишущими на Python/SQL для анализа данных. Эти блокноты станут приложениями для работы с данными, используемыми конечными пользователями внутри компаний, заменив хрупкие Excel и Google Sheets.

8. SaaS-приложения будут использовать облачные DWH в качестве бэкенда для чтения и записи (см.статью выше). Сегодня данные о продажах, маркетинге и финансах хранятся в разрозненных системах. Системы ETL используют API для передачи этих данных в DWH для анализа. В будущем программные продукты будут создавать свои приложения на базе DWH, чтобы воспользоваться преимуществами централизованной безопасности, ускорения процессов закупок и смежных данных. Эти системы также будут записывать данные в DWH.

9. Data Observability становится обязательным условием. Команды по работе с данными будут согласовывать показатели времени безотказной работы/точности данных. Сегодня команды по работе с данными сталкиваются с 70 инцидентами на 1000 таблиц.


@mobilefirstasia
👍46🔥2
Всем привет, завтра (2022-10-31) в 20:00 по мск Вебинар.
Спикер - почетный гость Datalearn - Николай Голов.
Тема: Activity Schema - новая методология? Одна таблица вместо хранилища данных.

Николай уже не первый раз радует нас выступлением
Ссылка на трансляцию: https://youtu.be/JXdz7-hCJyI
Как всегда рекомендация - "Кому интересно быть" :)

Спойлер: Я видел презентацию, там очень круто, впрочем как и всегда :)

Контакты спикера:
- azathot.mail@gmail.com
- linkedin.com/in/golov-nikolay-data
👍22🔥12👏2🤔1
Forwarded from Data Nature 🕊 (Alex Barakov)
.. ненароком сделал саммари текущей реальности на российском рынке BI решений в рамках подготовки сессии курса по BI стратегии. Получилась такое. Классификация решений не претендует на строгость и полноту, не было такой цели, но картинка независимая, без рекламы, содержит все сущностное и вероятно поможет кому-то сориентироваться. Будут дополнения - велком в комменты

отдельное спасибо @Ascenor @asdavtyan @sgromych @rbunin за подгрузку дополнительного экспертного контекста
👍57😁81👎1😢1
🚨Всем привет завтра (2022-11-02) в 21:00 по мск вебинар.

Тема:Базовые принципы заметковедения или как сделать так, чтобы записи приносили пользу, а не страдания.

Ведущий: Рустам Агамалиев
Рустам уже приходил к нам с выступлением про инструменты мышления. Кто смотрел тому выступление понравилось и вы просили Рустама рассказать подробней - вот пожалуйста.

Ссылка на завтрашний эфир:
https://youtu.be/wTQ2wwPsvlc


📕 Ссылки на ресурсы спикера:
🔗 Канал в телеге: https://t.me/Zettelkasten_ru
🔗 Цифровой сад: rustamagamaliev.ru
🔗 Форум: zttl.space
👍21🤡6🔥2🌭2🐳1
Forwarded from Grisha Skobelev
🗓 2 ноября, среда, 18:00 (мск) “Шина данных”

Разберемся какие задачи решает шина данных, поговорим о такие моменты: шина данных как канал обмена сообщениями для Event Driven  архитектуры, средство сбора и доставки данных для аналитики, инструмент batch - упаковки, инструмент потокового реагирования - Streaming analytics, streaming logic. Так же обсудим какие современные требования к шине данных и что от нее ожидаем (Persistence (Durability), High RPS, Many-to-many data deliver).

Встречаемся 02.11 в 18:00 по мск в Zoom.

@backend_megdu_skobkah
👍6
В комментах спросили с чего начать изучение DE с нуля:

1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.

Готово, вы великолепны.

Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://t.me/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).

Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.

Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).

Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/(бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/course/99527/promo#toc (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections

Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.
75👍43🔥26🥰1
Как улучшить английский в документации

Часто аналитик/технический писатель сталкивается с документацией написанной на английском языке, или же самому приходится писать ее на английском языке, в данной статье автор - технический писатель, постарался не просто дать рекомендации о том, как можно избежать распространённых ошибок, но и подсветил те отличительные черты английского языка, которые к этим ошибкам приводят. Познавательно и интересно))

Прейти
👍26🔥16🍓1
Нам нравится говорить об инновациях и будущем, электромашины, дроны, жизнь на марсе, криптовалюта, спутниковый интернет на малых орбитах и еще много чего нового, инновационного, хотя по факту базовые проблемы не решены. Но я не о проблемах в этом канале пишу.

Хотя иногда жалуюсь на эксплуатацию корпоративного мира, тяжкий труд на галерах и не сбывшиеся мечты, где все есть и ничего не надо делать😇

Хотя обратить ваше внимание на одну маленькую инновацию, за которой я наблюдаю - passwordless. Еще в 2021 году я писал в посте про Microsoft и его идеи об отмене паролей.

Это вам конечно не полет на марс, но именно такие скучные инновации двигают индустрию вперед. Вообще вся отрасль кибер безопасности не такая популярная. Лично мне заниматься безопасностью аналитических решений всегда скучно, но цена ошибки это репутация компании. Данные утекают в интерент легко, яндекс еда и другие яндекс сервисы не дадут соврать.

Так вот, я хотел вам сообщить, что тема passwordless активно развивается, и уже не кажется чем-то необычным.

В интернете достаточно много информации о последних инновациях в этой области, есть множество компаний и стартапов, которые работают в этой области и самое главное, эти компании добавляют ценности клиентам и делают жизнь клиентов лучше.

Сейчас некоторые компании инвестируют в passkey.

Passkey is the company’s implementation of an industry standard designed to remove passwords for online authentication. Earlier this year, Apple, Google and Microsoft joined hands with the FIDO Alliance and the World Wide Web Consortium to work on removing passwords for user authentication across the platforms.

Ссылки по теме:
Apple, Google and Microsoft team up on passwordless logins
Apple presentation - Meet passkeys
What is Apple Passkey, and how will it help you go passwordless?
Google - Passwordless login with passkeys
What is PassKey?

А вам какие инновации видятся?
👍10🍌3🌚2