Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
У Илона все ок с чувством юмора🚣
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50🗿10🙈7
Не секрет, что нейросеть можно обучить чему угодно. Тут коллеги по ремеслу из Яндекса поделились в статье как они обучали свою LLMку YandexGPT пересказывать видео.

За основу взяли модельку, которая уже могла делать саммари статей внутри браузера. И начали по полной качать LoRA адаптер. Главное преимущество именно этого метода – он позволяет быстро экспериментировать и проверять огромное количество гипотез. А это необходимо при условии, что моделька обучалась на 20 000 суммаризаций (которые прошли ручную разметку!).

К тому же используя LoRA можно улучшить устойчивость модели к шуму, что может быть полезно в случаях, когда данные не идеальны. И что немаловажно – спасти от promt injections. Эти инъекции могут быть коварны – они могут привести модель к переобучению, что может снести весь текущий прогресс.
🙈9❤‍🔥7🌭3
Пипец зарплаты на рынки с AI, такого не было раньше🍿

Недавно бывший VP Amazon (из Seattle) написал, что его годовой comp был 900к$ и в хороший год доходил до 2х млн$, а тут после универа и Phd можно сразу на такие деньги залететь.

Забавна, как несколько лет назад никто особо не смотрел в эту сторону, а теперь блогеры, которые успели запрыгнуть в ChatGPT контент (стали как бы экспертами) тоже неплохо крутятся.

Возможности приходят и уходят и кому-то удается максимально их реализовать.

Ну что, учите AI, LLMs, GenAi, Cuda?
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻37🐳943🌭1
Отличный совет для наших детей, что нужно учить в будущем. И получается Computer Science и Coding не очень вписываются в будущее https://youtu.be/BD6xQsk0ewQ?si=b-sPx1XOf3fgWtrU
❤‍🔥19🗿4🐳2
Я немножко запоздал, но в Канаде только утро 8 марта.

Девушки с в 8 марта! Успехов вам, побольше путешествий и качественных данных!

PS источник фото https://katerinasov.ru/disk/8-marta-bh3jz4 (там еще много открыток)
❤‍🔥936🐳2💯1
Если вдруг интересно чего по чем там в Австралии https://www.youtube.com/watch?v=R2plum6sLT4

PS Нашел много Azure, Dataricks, и чего-то не так много Snowflake и dbt, может не там искал=) Зарплаты на уровне Канады, например Staff DE - 220к, Head of Data/Director - 250к в год в австралийских тубриках до налогов. Зимой планирую на месяц в Австралию и там попробовать сделать Surfalytics Bootcamp 🏄‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2611🙉1
Сегодня в Surfalytics мы изучали конкурента dbt labs - paradime.io. Честно говоря до сегодняшенего дня я не знал о существовании этой компании и было интересно послушать и понять в чем же их главное отличие от dbt cloud.

Никита участвовал в dbt челлендже который они устраивали и запилил проект на Modern Data Stack используя как раз paradime для dbt, ну и пару других инструментов таких как Hex и Sigma. Кстати приз за первое место $1500 USD - хорошая мотивация для тех кто изучает новые технологии.

Про paradime сложилось впечатление что ребята просто взяли dbt core и запили платную версию с интерфейсом как в VSCode с уже встроенными расширениями и job scheduler.

Но самое главное, что Никита сделал с нуля проект, изучил новый интрумент и поделился своим опытом со всеми участниками коммьюнити. Это отличный пример для тех кто учится и развивает свою карьеру. Очень рад что Surfalytics помогает в этом.

Пост от Никиты по итогам сегодняшнего воркшопа:
https://www.linkedin.com/posts/nikita-volynets_a-few-weeks-ago-i-discovered-a-new-dbt-workspace-activity-7172345289188470784-UNj-

Можно поддержать лайком, чтобы было больше шансов на победу!
❤‍🔥373
Пример современного решения на Azure Databricks, и даже умудрились использовать dbt.

Сама статья больше про data quality проекта (качество данных) - Data Quality within Lakehouses
19❤‍🔥4🦄4
Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные офферы.

Пройти опрос можно здесь
🍌23🌭7🌚3💯2
Попался price рекрутера из Ванкувера, кто может вам сделать резюме.

1850 USD за резюме + Linkedin, при условии, что вы опытный специалист.

Сэм знает себе цену! Он тоже в Ванкувере, я хотел с ним на кофе сходить, но он сказал мне, что у него бизнес тут, и ему некогда на кофе с кем попало ходить.

PS Делаете услуги про резюму? Теперь вы знаете правильны расценки - от 150$ за 15 минут))
🗿54🙈39🌚7🍌7💯4🙊2🤷2👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
А есть кто из New York?

Планирую там быть 18-21 апреля, можно будет какой-нибудь митапчик сделать 🗽

А Seattle 17-19 мая.🍩
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄17🤷6🍾3
🫡59💯18❤‍🔥7😭6🗿4
Сидишь такой в четверг вечером и думаешь, что уже день прошел, а работа не сделана и все выбираешь, что сделать:

- Зафорсить Airflow DAG и сделать новый для Reverse ETL
- Поковыряться в Snowflake чужой команды, чтобы интегрировать через data share со своим
- Почитать best practices для Open Metadata
- Пофиксить косяки для EMR Serverless
- Узнать почему же у товарищей упал dbt поверх Databricks и помочь им его починить
- И еще надо бы люстру прикрутить
- И конечно закончить налоги!!!

В общем пока я думал, мне в Surfalytics прислали описание вакансий в Open AI:
- Data Engineer - 245k-390k
- Analytics Engineer- 210k-250k

Вакансии в SF.

Что используют:
- Hadoop на AWS, как я понимаю EMR + Spark, и предпочтение отдают Scala
- Tableau/Looker для BI
- упомянули про хранилище данных, но не сказали какой
- для оркестрации что-то из Airflow/Prefect/Dagster

Как понимаю есть и dbt, и обязательно будет классическое хранилище, не удивлюсь если по умолчанию Redshift. Оно и понятно, они не хотят вовлекать вендора, чтобы никто не хайповал, что у них клиент Open AI.

Ну я решил сразу хайпануть и записать обзор - Decoding Careers at OpenAI: Overview of Data & Analytics Engineer Opportunities
41❤‍🔥7🌭6🙈1
Как у вас там с эмпатией? Новый навык в резюме добавили в 2024?! В прошлом году мы добавляли DuckDB, Snowpark, Iceberg, и вычеркнули Firebolt. Ничего не забыл?

Инженер с высоким уровнем эмпатии, готов отнестись с понимаем к плохой архитектуре, кривым данных, и отсутствию документации и далее по списку!
🐳32😭17🌚7❤‍🔥4
Иногда такие фидбеки бывают!😎 (ЦАО это центр Москвы)
🍾24🤷‍♂7🗿5❤‍🔥3🍌1
Сейчас я расшарю Road Map для дата позиций (5).

В чем заключается идея? Максимально быстро овладеть навыками для поиска работы в новой стране, 20% знаний, которые дадут 80% результата. Я расшарю каждый Road Map отдельным сообщением, тогда у вас будет возможность оставить комментарии, написать что-нибудь, типа “да херня ваш road map”, “нихрена вы понимаете”, “шляпа какая-то”😇

Я не буду очень сильно вдаваться в подробности, но эти кореллируется с модулями Data Learn и это то, что я делаю в Surfalytics. Видео для 1го модуля я уже записал про MindMap и Road Maps. Когда будет полностью готов, то опубликую.

Road Map 1: Data Analyst (BI Developer) - вы знаете немножко Excel (то есть Spreadsheets), и вам нужно найти быстро 1ю работу.

Легенда:
- фиолетовый - data analyst/bi developer
- желтый - дальнейшее развитие в analytics engineer/data engineer
Please open Telegram to view this post
VIEW IN TELEGRAM
💯3511❤‍🔥11👨‍💻2👾2
Road Map 2: Analytics Engineer - вы уже имеете опыт работы аналитиком или просто готовы выучить бОльший объем

Легенда:
- фиолетовый - data analyst/bi developer скилы
- желтый - analytics engineer
- зеленый - дальнейшее развитие в data engineer
💯24❤‍🔥88
Road Map 3: Data Engineer - вы уже хорошо ориентируетесь в хранилище данных, моделирование данных, у вас есть уже скилы инженера и вы можете уже полноценно покрыть data потребности организации end-to-end

Легенда:
- желтый - analytics engineer, включает (фиолетовый - data analyst/bi developer скилы)
- зеленый - data engineer
- красный - опцианально изучать ML, но обычно я рекомендую изучать use cases, как DE может работать с ML, это не значит, что надо ML модели строить
❤‍🔥306💯1👾1
Road Map 4: Support Engineer (Data Products) - бонус

Прикольная позиция. Любой продукт (Snowflake, Databricks, Redshift, Flue, BigQuery, Tableau и тп) предоставляет услуги поддержки. Оплата такая как и обычных инженеров и от 30% времени вы тратите на обучение. Нет ни deadline, ни проектов, только support tickets, можно работать не напрягаюсь.
❤‍🔥225👾1
Road Map 5: Sales Engineer (Customer Engineer) - бонус

Кто-то должен делать демо продуктов и работать в паре с Sales? Вот это как раз sales engineer. И на конференциях выступать и на стенде стоять. Иногда еще роль называется Solution Architect, но для SA там уже может быть более глубокое погружение в проект на этапе внедрения)

Вы хорошо знаете продукт и понимаете как решение работает в аналитической экосистеме, можете быстро сделать демо продукта. Много встреч с клиентами и возможно поездок.

Однажды я получил офер от Microstrategy в Москве, но потом его отозвали и они закрыли офис. Еще я пытался в Канаде податься на это позицию, тоже получилось, но выбрал Амазон. И провалил собеседование в Канаде в Splunk на это позицию.

Вообще это была моя любимая позиция из всего спектра, но сейчас я стал уже ленивый для такого движа.
❤‍🔥154👾1