Инжиниринг Данных
23.4K subscribers
1.92K photos
57 videos
191 files
3.16K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Весь Linkedin пестрит 2мя темами, 1ая это про Трампа и какой он красавчик, а вот вторая тема про три уровня компаний, так называемая The Trimodal Nature of Tech Compensation.

То есть все компании можно разделить на 3 уровня по уровню компенсации в США, Европе, Индии. (Да и во всем мире)

Идея простая:
1) есть обычные компании, которые платят мало - tier 1. Получается там лучше вообще не работать 🤷
2) есть BigTech, который платит много (за счет стоков и бонусов) - tier 2
3) А есть еще топчик компании, кто платит как tier 1 + tier 2 вместе взятые, это у нас tier 3.

Мне это было всегда очевидно, я всегда избегал компании tier 1, и конечно мечтал бы работать в tier 3, но и в tier 2 неплохо.

Ссылка https://newsletter.pragmaticengineer.com/p/trimodal


Как бы вы распределили компании по слоям в РФ?

PS это отличная возможность хайпануть и использовать уже имеющие данные от getmatch и замутить такой же график для отечественных компаний ;)
💯326❤‍🔥5🫡2
Forwarded from Data Memes
💯85🙈12🗿4❤‍🔥3🤷‍♀1
Мне понравилась картинка, очень хорошо отражает все изменения в стартапах.

Для трендов данные и их интеграция играют очень важную роль.

Вместо того, чтобы думать - AI нас заменит, лучше думать про то, как бы нам принести пользу, какие пробелы в знаниях у нас есть и как их заполнить.


Вот несколько ресурсов:

Introduction to Generative AI with Snowflake

Generative AI Fundamentals (Databricks)
Guide: Build gen AI apps (Databricks)

Hugging Face - AI Course

Weights & Biases - Gen AI, Agents, LLMs courses

Anthropic courses
Antropic Cookbook

Cursor AI trainings

Deeplearning AI courses

Полезные Видео:

Deep Dive into LLMs like ChatGPT by
Andrej Karpathy


How I use LLMs by Andrej Karpathy

Building Agents with Model Context Protocol - Full Workshop with Mahesh Murag of Anthropic

Задача не стать AI или МL инженером, а разобраться в терминологии и use cases, и найти точки соприкосновения.
2❤‍🔥50🫡7💯4🐳1🙈1
Forwarded from e/acc
Антропик утверждает, что в 2026 появятся модели, которые

— превосходят Нобелевских лауреатов в большинстве областей
— умеют пользоваться всеми человеческими интерфейсами
— могут работать и думать неделями
— могут взаимодействовать с реальными миром через роботов.

Самое смешное, что в мире есть еще люди, которые считают что это не гарантированно и «авось пронесет».

Я не вижу ни одного сценария (технического, политического, бизнесового), в котором этого бы не произошло в течении 2 лет. Nothing stops this train.

Другой вопрос: как подготовиться и что делать дальше, особенно с такими штуками как координация людей (экономика, финансы, право, политика)? Есть любопытные идеи.
🫡31👾12🤷‍♂7🗿7🙊3
This media is not supported in your browser
VIEW IN TELEGRAM
🍾44💯11💘9
Практически каждый проект в инжиниринге данных начинается с package manager (пакетный менеджер), как правило для Python.

С одной стороны у всех цель одна, а с другой стороны “кто в лес, кто по дрова”.

Мне попались 3 хорошие статьи от Dagster на эту тему (про сам Dagster там нет), в которых хорошо рассказывают как это работает и как сделать удобно и красиво.

Python Packages: a Primer for Data People (part 1 of 2)
Python Packages: a Primer for Data People (part 2 of 2)
Best Practices in Structuring Python Projects

Вообще там 11 частей, в каждом посте будут ссылки на все части, например есть и другие полезные:
High-performance Python for Data Engineering
Write-Audit-Publish in data pipelines
Breaking Packages in Python
CI/CD and Data Pipeline Automation (with Git)
Factory Patterns in Python
Type Hinting in Python
Environment Variables in Python

Если вы еще на “вы” со всеми этими менеджерами, зависимостями или не очень понимаете, что творится у вас на работе в репозитории, то будет полезно ознакомиться.
❤‍🔥52💯105🐳3
Все работает как часы! Если конечно хватает мотивации довести дело до конца, Юрий молодец дожал и нашел работу🚀
❤‍🔥45🍾203
Оказывается, Макс тоже вышел на новую работу, и они вместе с Юрой отписались в дискорде, с чем я их и поздравляю!

Это полностью их заслуга. Хорошую работу с хорошей зарплатой быстро не найти, нужно пройти через сотни откликов, множество собеседований и тестовых заданий, отказов, которые выявляют пробелы в знаниях, которые нужно закрыть.

В результате прокачки, получается не просто закрыть пробелы и выйти на работу, но и начать контрибутить (приносить пользу) с 1го дня работы и сразу понятно куда дальше расти.

У ребят 100% валютная удаленка🍾
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
160❤‍🔥26🍾12🎄1
🏆 Авито — лучший работодатель для аналитиков!

По данным нового исследования NEWHR, Авито занял 1 место среди самых привлекательных компаний для аналитиков!

📊 В исследовании приняли участие 1293 аналитика разных уровней — от Junior-специалистов до руководителей.
Более 35% респондентов выбрали Авито как лучшего работодателя. Помимо этого, 69% специалистов отметили рост зарплат в 2024 году, а 46% стали более лояльны к текущему работодателю.

🚀 В Авито все решения принимаются с опорой на данные, поэтому аналитики есть в каждой продуктовой и бизнес-команде. Чтобы пользователи продолжали выбирать Авито, наши аналитики:

➡️ каждый день собирают 8 млрд новых событий и тестируют гипотезы,

➡️ создают системы метрик, аналитические фреймворки и математические модели,

➡️ проводят статистические исследования,

➡️ изучают поведение пользователей и находят причины в его изменениях,

➡️ настраивают отчетность,

➡️ выступают на конференциях, проводят митапы, пишут статьи на Хабре и многое другое.

С результатами исследования NEWHR можно ознакомиться по ссылке.
🙈22❤‍🔥14🌭92🐳2🌚2🤷1
Такая интересная история приключилась, сейчас расскажу:)

В LinkedIn мне написала Ксения, и скинула ссылка на недавний подкаст с Евгением, который в 40 лет выучился на дата инженера.

В небольшом подкасте он рассказал про свой путь и как учился, как искал первую работу https://careerselfmade.mave.digital/ep-7

Базу Женя подчерпнул на datalearn, а дальше уже стал самостоятельно углубляться, как результат полная переквалификация без платных курсов. Но как вы понимаете нужен фокус и мотивации.

Так классно слышать про полезные скилы, например отдельно нарабатываем прохождения собеседований, чтобы просто ходить по собеседования и валить их, чтобы понимать куда расти и где пробелы. Или про технических или бизнес инженеров. В общем очень познавательно и полезно.

С Евгением мы последний раз общались где-то год назад, он как раз поделился своими успехами. Уверен у него теперь еще круче! Валютная удаленка 💯

Ссылка на канал Ксюши https://t.me/HRqueenBCN
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥64🦄7🗿3🌚1🍾1
Ребята не принебрегайтей GitHub! Пусть у вас будет такой же зелененький календарь в профайле, как в этой душевой!

PS Git сложен: легко всё про@бать, и нереально понять как исправить. Документация Git - это финиш: чтобы найти решение, тебе заранее надо знать название фишки, которая вернет всё на место.

Поэтому вам в помощь - @баный Git!!!
❤‍🔥449🙈5🦄5💯4😈2🐳1
Сейчас с помощью AI хороший инженер может стать в пять раз продуктивнее, даже просто экономя время на написании YAML-файлов, создании прототипов, поиске ошибок, быстром погружении в незнакомые стеки и изучении новых языков программирования.

Я и сам вижу в этом множество преимуществ. Но есть нюанс. У меня и других опытных инженеров за плечами годы практики: мы самостоятельно изучали исходный код, искали примеры на StackOverflow, проходили десятки уроков и туториалов, набивали шишки, погружаясь в основы. И именно благодаря этому багажу сейчас мы можем эффективно использовать AI и становиться продуктивнее.

А что делать новичкам? Если они будут погружаться в основы таким же долгим и трудоёмким способом, то на короткой дистанции они окажутся непродуктивными и не будут оправдывать ожиданий работодателей.

Поэтому начинающие специалисты всё чаще обращаются к ChatGPT и аналогам, быстро находя готовые решения, но не понимая при этом их сути. В долгосрочной перспективе это лишает их возможности стать действительно хорошими инженерами. То есть, опытные инженеры станут еще лучше и востребованной, а новичкам будет еще сложной пробиться.

Получается парадокс: с одной стороны, нам говорят (и даже продают идею), что AI заменит нас, а с другой — именно AI нередко лишает нас возможности самостоятельно думать, разбираться и глубоко понимать предметную область.

Какие у вас мысли поводу молодежи и “войти в айти”?
💯85🗿14❤‍🔥6
Во время выборов президента Америки можно было заметить как американские миллиардеры поддерживает Трампа. Сейчас команда Трампа наводит шороху везде, рынки теряют деньги, люди жгут и портят Теслы (в комментах скину фотку, что вчера видел у салона тесла), все бузят на Маска и множество других событий 🍿

Попалась интересная статья, которая смотри на все события с другого ракурса - «Демократия закончилась: наступление корпоративной монархии»

Основные тезисы:

1. Три основные группы с разными, но опасными целями:
- Project 2025:
Реализация ультраправой, авторитарной политики. Включает запрет абортов, преследование ЛГБТ и транс-людей, отрицание климатических изменений и постоянную «культурную войну».
- Христианские реконструкционисты: Стремятся превратить США в христианскую теократию, переписав Конституцию на основе Библии.
- Технократы во главе с Маском, Тилем и Джей Ди Вэнсом: Продвигают идею корпоративной монархии, где демократия будет заменена корпоративным управлением под руководством «CEO-монарха».

2. Связь Питера Тиля, Илона Маска и JD Вэнса:
- Маск и Тиль вместе основали PayPal, откуда выросла мощная группа «PayPal Mafia», оказавшая огромное влияние на Кремниевую долину.
- Тиль, миллиардер и влиятельный технократ, профинансировал карьеру JD Вэнса, сделав его сначала сенатором, затем кандидатом в вице-президенты США.

3. Кёртис Ярвин и «Тёмное Просвещение» (Dark Enlightenment):
- Ярвин выступает за ликвидацию демократии и создание авторитарного государства в виде корпорации. Демократические процедуры считаются неэффективными и ненужными.
- Он предлагает упростить управление страной через корпоративный подход, заявляя, что Америке нужно избавиться от «диктаторофобии».

4. Идеология технократической корпоративной монархии:
- Миллиардеры Кремниевой долины считают демократию помехой и стремятся захватить власть, сократив роль государства и переведя управление в руки частных корпораций.
- Стратегия, названная Ярвиным «RAGE» (Retire All Government Employees), предусматривает массовые увольнения госслужащих, парализующие правительство, после чего корпорации займут их место.

5. Роль Илона Маска и JD Вэнса в текущих событиях:
- Маск уже активно реализует эту стратегию через инициативы вроде DOGE, что выглядит хаотично, но на деле тщательно спланировано.
- JD Вэнс внезапно стал ключевой политической фигурой благодаря усилиям Тиля и Ярвина, чтобы облегчить продвижение технократической повестки на высоком политическом уровне.

6. Роль Трампа:
- Дональд Трамп описан как пешка в этой игре, стареющий лидер, чьё хаотичное президентство является удобным фоном для реализации реальной техно-фашистской повестки.

Автор статьи делает вывод, что видимый хаос в американской политике — это осознанная и целенаправленная попытка группы технократов, таких как Маск, Тиль и Вэнс, создать корпоративную монархию на месте современной демократии США.
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡16🙈144❤‍🔥4🌚3🍾2🤷1
И есть еще одна статья - «Техно-фашизм приходит в Америку» из The New Yorker

1. Слияние технологий и государственной власти: В статье обсуждается объединение лидеров Кремниевой долины, таких как Илон Маск, с правительством США, что напоминает исторические примеры техно-фашизма, где технократы занимают влиятельные позиции в государстве.​

2. Инициатива DOGE: Илон Маск возглавляет программу «Digital Operations Governance and Efficiency» (DOGE), направленную на использование искусственного интеллекта для оптимизации государственных функций, что приводит к значительным сокращениям и деперсонализации бюрократической структуры.​

3. Исторические параллели: Автор проводит аналогии с предыдущими случаями, когда американские корпорации сотрудничали с государством, например, «Фордизм» Генри Форда и сотрудничество IBM с нацистской Германией, подчеркивая текущую тенденцию глубокого проникновения лидеров Кремниевой долины в государственные процессы.


4. Идеология техно-акселерационизма: Отмечается, что такие фигуры, как Илон Маск, стремятся быстро разрушить существующие структуры для создания технократического общества, что вызывает опасения относительно возможного ослабления демократических норм и усиления авторитарных тенденций.​

Интересно как сложится, будет ли у Америки новый CEO-Monarch вместо призидента, или люди себе надумали.

Наверно сейчас хорошее время покупать акции Теслы, пока они 50% down, даже если это был пузырь, то он еще отрастет за следующие несколько лет?
💯13❤‍🔥9🌚4🗿3🐳21
🔎 За какими дэшами следят в Amazon?

С Димой (@rockyourdata) написали статью про Amazon Weekly Business Review. Идея в том, чтобы смотреть несколько основных метрик сразу на одном листе понедельно, помесячно, а также MTD, QTD, YTD (период от начала месяца/квартала/года до текущей даты).

Дима проработал в Амазоне больше 5 лет и для меня эта схема с WBR была новая. Очень интересно посмотреть, как крупные компании следят за метриками. Ну а я подробно расписала, как собрать такой мини-wbr дэшборд в Tableau (прям шаг за шагом супер детально и доступно для скачивания).
❤‍🔥28🌭7
Недавно проходил собес на VP Analytics&Data Engineering в Американскую большую компанию, вот это тема, никто вас не спрашивает про leetcode, алгоритмы и другие вещи. Вы сразу общаетесь с С-level, спрашиваете их про планы компании, про impact решения, размер команды и тп, в общем то, что надо🤑
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡80💯44🍾16❤‍🔥65
В 7 утра я обычно работаю в living room пока все спят, а потом уже иду в офис смотреть на прохожих в окно👆

Чем меньше вещей вокруг тем продуктивней работа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥144🐳21🫡9👨‍💻41
Очень рекомендуют видео - Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

00:10 Building Large Language Models overview
02:21 Focus on data evaluation and systems in industry over architecture
06:25 Auto regressive language models predict the next word in a sentence.
08:26 Tokenizing text is crucial for language models
12:38 Training a large language model involves using a large corpus of text.
14:49 Tokenization process considerations
18:40 Tokenization improvement in GPT 4 for code understanding
20:31 Perplexity measures model hesitation between tokens
24:18 Comparing outputs and model prompting
26:15 Evaluation of language models can yield different results
30:15 Challenges in training large language models
32:06 Challenges in building large language models
35:57 Collecting real-world data is crucial for large language models
37:53 Challenges in building large language models
41:38 Scaling laws predict performance improvement with more data and larger models
43:33 Relationship between data, parameters, and compute
47:21 Importance of scaling laws in model performance
49:12 Quality of data matters more than architecture and losses in scaling laws
52:54 Inference for large language models is very expensive
54:54 Training large language models is costly
59:12 Post training aligns language models for AI assistant use
1:01:05 Supervised fine-tuning for large language models
1:04:50 Leveraging large language models for data generation and synthesis
1:06:49 Balancing data generation and human input for effective learning
1:10:23 Limitations of human abilities in generating large language models
1:12:12 Training language models to maximize human preference instead of cloning human behaviors.
1:16:06 Training reward model using softmax logits for human preferences.
1:18:02 Modeling optimization and challenges in large language models (LLMs)
1:21:49 Reinforcement learning models and potential benefits
1:23:44 Challenges with using humans for data annotation
1:27:21 LLMs are cost-effective and have better agreement with humans than humans themselves
1:29:12 Perplexity is not calibrated for large language models
1:33:00 Variance in performance of GPT-4 based on prompt specificity
1:34:51 Pre-training data plays a vital role in model initialization
1:38:32 Utilize GPUs efficiently with matrix multiplication
1:40:21 Utilizing 16 bits for faster training in deep learning
1:44:08 Building Large Language Models from scratch
❤‍🔥236🫡4