Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если у вас есть дети, могу посоветовать им настоящий журнал Юный натуралист https://unnaturalist.ru/anonce/show/anonceId/279/#top

И конечно в свежем номере есть рассказ про пеликанов - КАК ЛЕТАЮТ ПЕЛИКАНЫ

PS а для взрослых у нас про пеликанов тут - https://www.scifly.ai/
💘29❤‍🔥10🍾52🙈2🤷‍♀1🐳1
13 июня будет Trino Fest, у них есть онлайн сессия.

Trino - SQL движок, который умеет читать данные из других баз данных, файлов, NoSQL баз, sftp, и еще много чего. Полностью открытое ПО. Я знаю, что можно использовать sql движок от Clickhouse/Duckdb (без функции хранения данных в базу), но деталей не знаю.

Я даже специально зашел на любимый сайт своей молодости HH (headhunter ru) и поискал “trino”, и нашел довольно много вакансий Инженера Данных с Trino. Также trino используются в отечественном облаке.

Идеальный стек мог бы быть в облаке или on-premise:
- Trino - SQL Engine, строим Iceberg Data Lake
- Нужно найти где хранить данные, в зависимости от возможностей
- dbt - бизнес логика в SQL
- Airflow/Prefect - расписание
- Airbyte/Meltano - набор коннекторов к источникам данных
- Metabase - SQL доступ для пользователей + дашборды (возможно Superset)
- Kubernetes - хостинг всего этого дела
20🐳4❤‍🔥3
Про визуализацию Настеньку и ее графики📊

В телеграмме достаточно много канало про визуализацию и инфографику. Сегодня я поделюсь с интересным каналом, который я уже давно читаю. В нем прекрасно все и название и контент - настенька и графики.

Я посмотрел в истории своего канала, у меня было несколько упоминаний канала и самое первое было 4 сентября 2020 года.

В канале много примеров визуализаций, даже есть визуализация про про бары в Питере🥂

В целом в канале очень много информации про best practices и историю визуализации. Думаю подписчики канала не попадают в просак с pie chart. Еще у Насти афигенный Tableau Public Profile и даже есть курс по визуализации и разработки в Tableau на степике.

А кроме Насти еще еще много талантливых писателей, у кого одно из хобби писать что-нибудь в телеграмм, их собрали в папочку, на которую вы можете подписаться, там 15 каналов про Аналитику.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥28🌚64
Действие - это применение некоторого инструмента к процессам для достижения поставленной цели. Главным критерием является не результативность действия, которая может быть и нулевой, и отрицательной. Всё это носит вероятностный характер. Делать что-либо, когда результат не гарантирован на 100% - с тактического масштаба достаточно глупо. Зачем тратить энергию на то, что либо принесёт результат или нет? Лучше зависнуть в экономном режиме и ждать стопудовых вариантов. Все это логично и рационально.

Чтобы таким образом живые существа не вымирали за миллионы лет естественного отбора в нас закрепилась одна молекула, молекула «ещё», то есть дофамин. Чем более случайный результат, тем больше азарта, тем больше дофамина в предвкушении возможного выигрыша. Эта молекула поощряет наши вероятностные действия.

Более того, без дофамина, как выяснили в ходе одного ужасного эксперимента по лечению зависимостей, мы вообще не можем двигаться. Лишенные чувствительности к дофамину пациенты превратились в парализованных, обездвиженных людей.

Предформой дофамина является норадреналин. Который, в свою очередь вырабатывается от стресса, когда нам что-либо угрожает. Все логично и рационально, если опасность застала врасплох, надо срочно сваливать либо атаковать, может и замереть контролируя свои мышцы, но в любом случае действовать. Поэтому если с утра в течение первого часа после подъема сделать силовые упражнения (десяток другой приседаний, отжиманий) и потом поставить и достичь цели, то дофаминовые цепочки заведутся на весь день. Цель может быть минимальной - прочесть 10 страниц книги, помыть посуду, сделать NBack, но обязательно ощущать добровольную завершенность задачи. Вот то самое удовлетворение от сделанного.

Именно добровольное, потому что если кто-то заставляет, то цепочка подачи дофамина в лобной доли блокируется. В армии заставляют отжиматься, но это не дает удовольствия.

Ещё дофамин выплескивается после обжигающе холодного душа идти ополаскивания, если здоровье позволяет. Обливание должно быть краткосрочным, это не для того, чтобы привыкать к холоду. В результате на четыре часа уровень дофамина растет в два раза. В отличие от множества других ю способов поднять дофамин, после которых дофамин резко падает.

Чем выше поднят дофамин, тем ниже он падает. Если одновременно смотреть интересный фильм, есть фастфуд и пить сладкую газировку, то дофамин зашкаливает. Но после этого резко и очень сильно падает. Лучше отдельно: кино, газировка и фастфуд, раз уж так сложилось.

Это краткое осмысление одного из подкастов Эндрю Хубермана - https://youtu.be/QmOF0crdyRU
❤‍🔥42🗿176🎄1🤷1
Вот буквально на днях кол-во подписчиков перевалило за 20 000! Конечно активных только 5000, остальные 15т наверно “мертвые души”, но это уже совсем другая история.

Канал был создан в 6 ноября 2018 года. Тогда еще телеграмм не был таким популярным и вообще за пределами РФ не использовался. Так получилось, что Алексей меня пригласил на первый Матемаркетинг выступить с докладом от Амазон. Ему был интересен Амазон, как громкое имя, а не лично я. Я даже не помню как мы познакомились, но помню, что до Матемаркетинга я был летом в Москве, и мы встретились первый раз, я получил интересный инсайт - телеграмм канал приносит больше денег чем full time работа.

И вот в ноябре 2018 на конференции, я выступил с докладом, и использовал канал, чтобы расшарить лабы по Snowflake + Tableau. В 2018 году Snowflake еще был не публичной компаний и в Канаде о нем мало кто знал, а в Москве уже проходили воркшопы по нему! А доклад назывался - BI-системы и DWH - Архитектура и кейсы

Уже после конференции у меня было 600 подписчиков, и я начал бомбить историями про “залететь на работу без опыта”. Вообще думаю о том, что мой канал про “Инжиниринг карьеры и данных”.

И тут я подумал, как круто, можно летать на конференцию в Москву благодаря каналу. И действительно, скоро я выступал в Mail Ru офисе перед огромной аудиторий - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? И это было очень круто, я сам кайфанул как круто получилось. Секрет был прост:
- 2 предложения на слайд (желательно все выучить наизусть)
- много ярких и интересных слайдов
- несколько классных промо роликов от Amazon Alexa

Так же я писал статьи на Хабр, у которых было пот 40к-80к просмотров, что приводило новых пользователей.

Так же выступил онлайн на нескольких конференциях, включая Smart Data - главная конференция по инжинирингу данных:
- Два типа инженеров данных
- Инжиниринг данных в «Майкрософт»
- Все жду 3ю серию про архитектуру и решения

В какой-то момент ко мне пришли с запросом из курсов Skill Factory на создание курса по Инжинирингу Данных. Я сделал план курса, но мне предложили 120т рублей за разработку курса и попросили сделать за месяц. Дали доступ на курс по data science посмотреть пример, оказалось все очень печально, из чего я сделал вывод, что все эти курсы шляпа. Чтобы программа не пропадала, решил записать курс и Роман Пономарев очень помог с организаций и поддержкой (курс и сообщество дальше живет) - datalearn.ru . Сообщество очень помогло во время ковида, и я точно знаю, что очень многим помогло начать карьеру, найти работу и тп. Мне всегда хотелось делиться знаниями и у меня всегда была мысль сделать что-нибудь для своей Родины, ну и вообще верю в круговорот энергии, больше даешь, больше получаешь!

Здесь же зародился замечательный проект про мониторинг пеликанов, который теперь называется https://www.scifly.ai/ . Сегодня вот, например, обсуждал как бы классно было бы открыть ферму пеликанов в Подмосковье (ведь есть фермы/заповедники кенгуру). Вы знали, что пеликанам появились 40-50 млн лет?! И я не знал…

Из последнего в Сентябре/Октябре появился Surfalytics. Это как datalearn, но на английском и глобальный. Так же все бесплатно, но вход сообщество уже за номинальную плату, потому что совсем бесплатное не очень-то уж ценится.

Поэтому, мое вам большое спасибо, что продолжаете читать, благодаря каналу я познакомился с огромным кол-вом людей по всему миру! И я рад, что я могу тут быть самим собой и реализовывать потребность “поделиться” ссылочкой, побузить на менеджера или проект, пожаловаться на маленькую зарплату или негодовать на массовые увольнения!
❤‍🔥267🍾66🦄2615🫡8🐳1🤷1
В книге Джейсона Каланиса "Ангел-инвестор”, Джейсон приводит пример вопросов, на которые нужно ответить, перед тем как принять решения об инвестировании (seed investment в данном контексте).

Самое интересное, что эти вопросы хорошо подходят для вашей карьеры. Вообще особо не важно, что вы делаете на работе, но задать эти вопросы во время собеседования или общаться с фаундерами использую их же терминологию лишним не будет.

Какая проблема решается? – Понять, какую конкретную проблему решает стартап, и насколько она значима для целевой аудитории.

Почему сейчас? – Почему именно сейчас настало подходящее время для решения этой проблемы? Какие изменения в технологии, рынке или обществе делают этот момент подходящим?

Почему вы? – Почему именно эта команда способна успешно реализовать эту идею? Какой у них опыт, знания и мотивация?

Что уникального? – В чем уникальность продукта или услуги? Почему конкуренты не смогут легко повторить или превзойти это решение?

Как вы будете зарабатывать деньги? – Какова бизнес-модель стартапа? Как планируется генерировать доход и какова стратегия монетизации?

Какие метрики важны? – Какие ключевые показатели эффективности (KPI) будут использоваться для измерения успеха? Как будет измеряться рост и прогресс?

Какова ваша стратегия роста? – Как стартап планирует привлекать клиентов и масштабировать бизнес? Какие маркетинговые и продажные стратегии будут использоваться?

Какие риски? – Какие основные риски связаны с бизнесом и как команда планирует их минимизировать?

Какие у вас конкуренты? – Кто основные конкуренты на рынке? Чем они отличаются и как стартап планирует конкурировать с ними?

Как вы используете инвестиции? – Как стартап планирует использовать привлеченные средства? На какие основные области будут направлены инвестиции?


Да еще в случает офера в стартап, вы сможете оценить самостоятельно шансы на успех:


Какое у вас текущее количество наличных денег? – Это помогает понять текущий финансовый резерв стартапа.

Каков ваш месячный уровень сжигания наличных (burn rate)? – Этот показатель показывает, сколько денег стартап тратит каждый месяц.

Сколько месяцев у вас осталось на существующих наличных? – Этот вопрос помогает оценить, насколько долго стартап сможет продолжать операционную деятельность при текущем уровне расходов.

Какой ваш план по привлечению следующих раундов финансирования? – Важно понимать, как стартап планирует привлекать дополнительные инвестиции и какие шаги они предпринимают для этого.

У меня недавно был такой кейс, где я зарядил все эти вопросы фаундерам стартапа, и эффект был очень позитивный. Теперь помогаю им выстроить все систему аналитики с 0. Конечно в моем контексте главный уклон был на данные, метрики бизнеса, ценность данных для продукта и leadership команды.

Я всегда говорю, вы как специалист должны добавлять ценность компании, коллегам, инвесторам, фаундарам, руководству. По опыту surflalytics я вижу, что скиллы можно быстро получить, а вот behaviour вопросы, навыки продавать себя и рассказывать красиво про свой опыт это не просто, а тут уже не получился в тихушку задачки порешать на Leetcode, нужно выявить слабые места и переступить через свои страхи, начать делать, что вы раньше не делали- Public Speaking? Blog posting? Youtube channel? Митапы? Нетворкинг?

PS теперь Surfalytics это про engineering data career.
49💯15❤‍🔥13
Самое время летом читать про Iceberg, все вендоры уже вдоль и поперек про него рассказали на своих конференциях.
❤‍🔥306🐳5
Одна из сложностей для обучения, курсов и тренингов - оторванность от реального бизнеса.

Обычно выбор сводится к данным Airbnb в CSV файла, NY Taxi в Parquet и тп, затертых до дыр use cases.

У меня давно была идея как-нибудь решить эту проблему.

В мое случае, я хочу сделать реальный интернет магазин с реальным товаром, например футболки. Чтобы все это упростить, пусть это будет drop-shipping/print on-demand на Shopify, интеграция с Stripe, Google Ads, Facebook Ads, LinkedinAds. Можно даже на Amazon положить.

Сам объем продаж и профит мне не важны, мне важны реальные данные и реальные use cases.

Для начала я решил скрестить дорогие машины и прикольный спорт (серфинг, лыжи, горный/дорожный, велосипед, кайтинг), еще рыбалка и охота. Выбрал разные машины типа DeLorean time machine, Ford GT40, Lamborghini Countach LP500 S, FERRARI TESTAROSSA, и тп + 2 бонусом Volga GAZ 21, vaz-2108.

Попросил мою любимую дизайнерскую студию https://studiomuti.co.za/graphics придти с идеями дизайна и товарища предпринимателя изучить вопрос местного рынка футболок, кто интегрируется с shopify. (Товарищ до Канады продавал на Озоне успешно, так что можно будет потом и на озон закинуть ради эксперимента).

PS это я дизайнерам нарисовал гелик с серфом в качестве ТЗ:)

Кстати наш Data Surf bootcamp будет 20-25 Августа в Тофино.
33🐳4❤‍🔥1
Работая в больших компаниях часто можно услышать или увидеть как продуктовые менеджеры бегают с CDP (Customer Data Platform)(раньше это была фишка маркетологов). В данном контексте это вендорское решение, например Segment, Amplitude или еще чего.

Customer Data Platform is an all-in-one marketing and data infrastructure. In a nutshell, it’s a database for all your user information with a connected activation layer to help you leverage the data for marketing.


Главное в CDP это клиент, поэтому хочется создать 360 взгляд на активность клиента, и иметь возможность сегментировать и взаимодействовать (письмо, push, звонок и тп)

Если вы работает над создание хранилища данных, где хотите консолидировать данные едином месте, когда вы слышите про новую инициативу - создать CDP, то сразу возникает вопрос зачем?

Сразу понятно это долго и дорого. Но не для всех. Кто далек от технологий, верит, что CDP решит все проблем, наконец-то будет единый источник данных, продуктовые и маркетинговые метрики будут аккуратные, качество данных будет замечательным, и никаких outages. Прям как в сказке….

Особенно прикольно, когда под капотом у CDP тот же стек, что и вас в компании. Но вы об этом все равно не узнаете, CDP это black box, с хорошим маркетингом и сильным продажниками🤱

Friends Don’t Let Friends Buy a CDP

PS Как у вас с CDP?
Please open Telegram to view this post
VIEW IN TELEGRAM
12🍌1
Forwarded from Книжный куб (Alexander Polomodov)
dbt — ядро современной платформы данных - Евгений Ермаков - SmartData 2023 (Рубрика #Architecture)

Интересный доклад Евгения Ермакова про построение дата платформы в toloka.ai, которая, получив независимость от Yandex, вынуждена была переезжать на новые технологии. В итоге, выбор пал на databricks, dbt, airflow и tableau. Автор рассказывает о том, почему был сделан такой выбор и как в итоге это все работает.

Основные моменты следующие:
- Сама toloka - это система для краудсорсинга, куда заказчики приходят с задачками навроде разметить данные, а с другой стороны на платформе зарегестрированы люди, которые их выполняют
- Архитектура базируются на трех китах:
-- Data lakehouse
-- Процессы в соответствии с подходом data mesh
-- Современный технологический стек
- До переезда на новые технологии ребята использовали много своего, часть из которого уже есть в opensource: YTsaurus, datalens
- После переезда выбрали новые технологии и dbt стал ядром системы, закрывая функциональность: data quality, data catalog/ data observability, batch processing (вместе со spark), orchestration (вместе с airflow)
- Изначально dbt (data building tool) нужен был в качестве удобного инструмента для transformation шага в ETL/ELT
- Интересно, что в концепции компании dbt есть мнение и относительно ролей, где помимо стандартных data engineers и data analysts появляется еще analytics engineer. В итоге, data engineers - это те, кто делают так, чтобы data платформа работала эффективно, data analysts ищут инсайты в данных и помогают их эффективно использовать, а вот analytics engineers - это ребята, что-то среднее между другими двумя + хорошо укладывается в концепцию data mesh, где нет централизованной дата-команды, а есть дата-команды по доменам
- Основой dbt-проекта является dbt model. Модель состоит из файла с описанием логики (.sql или .py файл) и файла с описанием конфигурации. В .sql файле есть запрос на формирование объекта, другие модели используются через ref() или source() + используется jinja шаблонизация. В .py файле возвращаем dataframe с рассчитанными данными, есть доступ ко всем возможностям pyspark + другие модели тоже используются через ref() или source()
- Материализацию запроса dbt берет на себя и есть разные стратегии, из которых самая интересная incremental
- Настройки хранятся в dbt_project.yaml и profiles.yaml
- dbt поддерживает большое количество баз данных, например, postgres, mysql, clickhouse, ...
- dbt - это консольная утилита, например, при запуске dbt build происходит сборка всех зависимостей между моделями, а также компиляция python/sql запросов и запись в manifest.json
- Команда dbt run запускает скомпилированные запросы, где запуск можно настроить по разному, но интересно запускать по графу
- Кстати, dbt умеет генерировать документацию командой dbt docs generate и дальше можно посмотреть на lineage данных
- Также мы можем писать тесты в том же месте, где мы описываем модели, а дальше запускать их при помощи dbt tests. Например, можем проверять unique или not null на поле, а также если хотим relations между моделями
- У dbt есть еще много возможностей, но про них стоит почитать самостоятельно:)
- Дальше автор рассказывает как сделать data mesh на уровне dbt + airflow. Автор рассматривает варианты вида:
-- Монолитный - один dbt проект на всю компанию
-- Микросервисный - отдельные dbt проекты на каждый домен
-- Layered - отдельные dbt проекты по уровням
-- Смешанный - анархия, где проекты создаются кто как хочет
Выбрали монолитный подход и получили аля монорепо под data mesh, в котором живут все. Обусловлено это было тем, что при микросервисном подходе ломались все связки между моделями (до 1.6 не могли называть модели одинаково в разных проектах + была проблема с импортом друг друга, так как это приводило к циклическим зависимостям).
Из интересного еще сделали конвертор графа исполнения dbt в airflow формат, чтобы запускать DAG из airflow.

В итоге, ребята реализовали свой подход к data mesh при помощи open source инструмнетов и вся схема выглядит достаточно стройно.

#Data #Datamesh #DWH #Processes #Management
40❤‍🔥16💯4😭1
Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республики Беларусь.

Узнать подробности и зарегистрироваться можно здесь.
🗿359🙈3😈2🤷1
Все привет! Оставьте в комментариях вопросы и я смогу ответить на них более развернуто🍞
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8🌚1
Media is too big
VIEW IN TELEGRAM
Отвечаю на пару:
1) Как попасть в ФААНГ
2) Пиво или Сидр

Пардон, что без микрофона и наушников, я просто гуляю у офисов Амазона в Сиэтле и ностальгирую с бутылочкой, пока семью пьет «чай с шариками».

Потом еще запишу ответы на другие вопросы.

Всем хороших выходных!
❤‍🔥67🍾16
Пришел вопрос прокомментировать картинку про поиск работы в Канаде (можно заменить на любую страну). Про Канаду еще была замечательная статья - Рекрутинговый ад или как я в Канаде IT работу искал.

Как я понимаю, сейчас в Москве отлично с вакансиями и зарплатами, не думали 1С подтянуть и на удаленку в Москву из Европы или Северной Америки, tax free?🤱

Я согласен с тезисами. Я сам активно собеседуюсь всегда, когда можно, помогаю другим проходить собеседования и готовиться к ним. У меня все просто “результат любой ценой”.

99% агентств - это какой-то шлак. Если на фотке рекрутер из Индии, то можно вообще время не тратить, вам либо предложат 1/3 от вашей стоимости. Мне кажется это из 90х - ожидание о мифических агентствах, кто вам найдет работу и все за вас сделает. Поэтому не будьте наивными не рассчитывайте на агентства, люди там копейки получают и им вообще плевать на вас. Но при этом могут какую-то ерунда спрашивать.

На каждую вакансию откликается огромное кол-во кандидатов, мне кажется, что 80% из них вообще даже не подходят под описание или не имеют разрешение на работу, НО они забивают своими резюме “внимание” рекрутер, и до вас может даже очередь не дойдет.

Как и везде, куча людей, которые предлагают наставничество, курсы, тренинги и тп. Здесь могу сказать одно - если вы не можете сами написать резюме, ничего не изменится если вам за 1000$ сделают резюме. Вы все равно сольете собеседование.

Александр на картинке имеет титл Sr Program Manager и к сожалению это вакансия как и многие другие решена специфик. С одной стороны Program Manager может быть и Project Manager, и Product Manager, и еще куча всяких вакансий, поэтому и желающих больше и 100% сложней найти. И кол-во сертификатов никак не поможет получить работу.

Для себя я выработал следующие принципы:
1) Я занимаюсь созданием личного бренда
2) Я стараюсь бить в одну точку (специализация - дата инженер, это как сантехник, ценность специалиста понятна, прозрачна и измерима)
3) Я всегда ищу работу, даже если не надо, навык собеседований и story telling очень важен
4) Я стараюсь не зависеть 100% финансово от одной работы
5) Я всегда учусь (upskill), многие люди думают, что они и так все знают или выучат уже на работе. Как говорится - фатальная ошибка. Такая же как быть супер честным на собеседовании🤗
6) У меня нет никаких ожиданий ни от менеджера, ни от компании, ни от коллег, все что я делаю, я делаю для себя (работать по вечерам? работать по выходным? работать 12 часов в день?)
7) Приоритеты важны, и приоритеты должны быть не личные, а семейные. Если семейные приоритеты хороший и стабильный income, значит приоритеты в семье могут измениться.
8) Какой-нибудь нетворкинг - поддерживать отношения с бывшими коллегами, ходить на митапы, быть very nice для всех ваших professional connections.

Это так, что первое пришло на ум. А так вообще сложно оценить такие посты, ведь нет конкретики, цифр.

PS не забывайте про козырь в рукаве - напишите в резюме, что вы ветеран-трансгендер (желательно не белый), тогда ваши шансы возрастут! Надеюсь видео пруф не попросят🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
77🦄15🙈14❤‍🔥13💯3🗿1
Ребята, которые давно читают мой канал, попросили информационно поддержать их проект Support Awards.

Думаю, тут многим интересно будет поучаствовать, так как саппорта в data проектах выше крыши😊

А я их попросил сделать для нас вебинар про RAG!
🌚8❤‍🔥53🌭2💯1
Сегодня на Surfalytics мы разбирали интересную задачку по Spark (PySpark), которую прислали в качестве тестового задания на Sr Data Engineer с вилкой для Канады 200к CAD - 220к CAD, что очень неплохо, удаленная работа на проект в консалтинг.

Задание мне понравилось:

Нужно взять 3 файла с данными, сделать трансформацию и сохранить результат. Идеальное упражнение для всех, кто учится на Data Engineer и начинает работать с PySpark. Я потратил где-то 2 часа на это упражнение и рассказывал про каждую строчку кода и приводил примеры как это работает в production и какие вопросы можно будет ожидать на собеседовании, или как тоже самое сделать с помощью SQL. Рассказал про Test Driven Development и многое другое.

Код удалось сохранить, вы можете самостоятельно решить задачку: https://github.com/surfalytics/data-projects/tree/main/de-projects/10_spark_transformations_with_tests_framework.


Вообще это очень хороший пример, как разрабатывать на Spark и как сразу писать тесты ко всем функциям/трансформациям.

Было бы еще классно к решению добавить:
- PySpark Style guide: https://github.com/palantir/pyspark-style-guide
- Использовать GitHub Actions, чтобы у вас тесты выполнялись, когда вы делаете commit (Continuous Integration)
- Попробовать тоже самое на Snowflake и dbt
- Попробовать тоже самое на Databricks (+ Repos, Unity Catalog)

PS это лишь маленький пример, что мы делаем на Surfalytics🏄
58❤‍🔥19
У моего телеграмм канала @rockyourdata есть кредитная карта🍞

PS вопрос про налогообложение, знаете ли вы в какой стране самый маленький налог если открывать юр лицо?

Я слышал про:
- Дубай 9%
- Грузия 1%
- Тайланд 15%

Возможно еще много вариантов - Мальта, Панама, даже наверно можно в США выбрать штат с самым маленьким налогом.
Please open Telegram to view this post
VIEW IN TELEGRAM
💯1
The Trimodal Nature of Tech Compensation Revisited - статья про уровни зарплат.

Любая зарплата (total compensation) складывается из 3х частей:

Base salary + cash bonus + Stocks (“акции” или типа того)

Акции компании бывают разные, если компания публичная как Amazon, вы получаете акции RSU и каждый квартал вам их выдают, вы можете их продать.

Так же если компания публичная, вы можете покупать акции на 15% процентов свой зарплаты со скидкой 10% (Например Microsoft и другие).

В статье уже более детально все описано.

Я лишь подумал о другом.

Условно когда мы ищем работу, нам бы лучше выбрать компанию, где есть все и сразу. В FAANG, это разумеется есть, но таких компаний мало, а желающих много. (Tier 1)

Поэтому надо смотреть Tier 2 компании, которые так же вам могут предложить что-то кроме зарплаты. Ведь базовая зарплата у всех +/- будет одинаковая, а все, что выше это бонусы, стоки и тп.

Часто бывает опцион в стартапах, где вам обещают буквально миллионы, если компания станет публичной. Я вам тоже могу обещать миллионы, если вы будете играть в лотерею😅 Ну смысле не будьте наивными.

Поэтому, не забывайте при поиске работы взвешивать все возможные варианты, и если есть выбор, где работать, попробуйте отсортировать компании по их возможности вам платить (вне зависимости от базовой зарплаты).

И все это к чему? А к тому, что лучше искать работу, когда у вас все хорошо, и есть возможность подойти к вопросу отбора без спешки, чем когда у вас все горит….
🐳26🫡103
Не могу не поделиться пример “холодного звонка” или лучше сказать сообщения. Чувак хочет мне продать услуги и вот, что он сделал - https://youtu.be/AvJETIwuYY4?si=zrIEzbNZbgI4ijrJ

Мне кажется, можно вам так вместо Cover Letter делать, вы просто представьте себе, когда recruiter/hiring manager за бокальчиком Апероль Шприц будет слушать ваше сообщение - шах и мат, как говорят! А самое крутое, у вас будет Аналитика - получили ли ваше сообщение или нет. Я так делал до 2015 года, только с презентаций и slideshare, видео явно круче! Ищите hiring manager и отправляйте видосик на 3-4 минут, где вы лазите по сайту, показываете свои достоинства (не то что вы подумали) и тп.

PS Ну как такому добряку я могу отказать проматать несколько тысяч долларов теперь🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚14🦄10💯63🤷1